Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Электронная информация и электронные ресурсы

..pdf
Скачиваний:
2
Добавлен:
20.11.2023
Размер:
20.88 Mб
Скачать

Глава 6. Работа по составлению и использованию вторичных документов...

ным и полезным для всех», сбывается: 2004 г. уже вошел в исто­ рию как год Google. В этом году:

запущена поисковая машина Голиаф;

проведено весьма успешное акционирование компании на Уолл-стрит;

вышла на рынок канареечно-желтая система бизнес-по­ иска «Приложения» (Appliance);

запущена система Google Print.

Посещение Брином и Пэйджем Франкфуртской книжной ярмарки 2004 г. оказалось очередным триумфом: они предъяви­ ли очень интересную новинку, Google Print, которая объединя­ ет содержание отсканированных книг с поисковыми возможно­ стями системы. Строго говоря, они не были первыми: хорошо известная сетевая книготорговая система Amazon.com создала подобную систему Search Inside the Book (кстати, вызвавшую тогда много вопросов по совместимости этой системы с законо­ дательством об авторских правах). Система Amazon.com, на­ званная Search Inside the Book, дает доступ к 33 млн страниц из 120 тыс. книг, выпущенных 190 издателями художественной и научной литературы. Через неделю после внедрения системы продажи включенных в нее книг выросли на 9% по сравнению с теми, которые в систему не были включены.

Google Print — это инструмент для обнаружения книг, а не для чтения их от начала до конца. Именно поэтому данная сис­ тема столь важна для специалистов по информации. Междуна­ родное сообщество издателей также весьма благосклонно при­ няло эту инициативу, и его члены достаточно охотно отдают для сканирования принадлежащие им публикации (хотя есть и про­ тивники этого, в том числе и желающие судиться). Google ут­ верждает, что система введет вас в ту часть книги, где находится ваш поисковый термин. Приятно, что компания сохранила ту классическую и прославленную пользователями чистоту дизай­ на сетевой страницы, что привлекает пользователей, и в основ­ ном продукте — ничего лишнего, никакой мишуры или украша­ тельства — все функционально и необходимо пользователю, а не продавцу! Все советы по навигации вынесены на левую поло­ вину сетевой страницы, в том числе и изображение обложки книги. Навигация разбита на три группы:

242

Комплекс поисковых интернет-систем компании Google

поиск внутри книги,

книжные страницы,

как купить данную книгу.

Особо нужно отметить две замечательные опции.

Первая — это «поиск внутри книги», по ключевому слову вы можете «просеять» содержание данного документа, в результате поиска система вам даст номер страницы и аннотацию. Щелк­ нув мышыо по результатам поиска, вы сможете выйти на необ­ ходимую страницу, и ключевое слово будет выделено.

Вторая замечательная опция — «о книге», в которой вы най­ дете краткую (на 1 страницу) аннотацию всей книги и всю биб­ лиографическую информацию. В этом же разделе представлена таблица содержания (оглавление), чтобы пользователь удосто­ верился, что именно эта публикация ему нужна, а также отска­ нированное заявление об авторском праве. Вклад технологов Google в защиту авторских прав состоит в невозможности копи­ рования или распечатки страниц книги.

Раздел «О покупке данной книги» отсылает вас к веб-сайтам электронной торговли от имени издателей или к таким рознич­ ным системам, как Amazon.com. Уровень сканирования обеспе­ чивает кристально ясное воспроизведение страницы. В верхней части дается заголовок книги и автор, а внизу — ISBN. Пользо­ ватель может посмотреть 3 страницы. Является ли Google угро­ зой для издателей? Судя по количеству издательских компаний, участвующих в проекте, — нет, не является. Необычайно высо­ кое качество воспроизведения печатной страницы делает Google Print великолепным и бесплатным инструментом для научной работы и, конечно, для продвижения публикации на сетевой и традиционный рынок.

Система Google Print позволяет при поиске выходить на ту книгу, в тексте которой содержится релевантная по отношению к запросу информация; выдаются данные о публикации и ее доступности (адрес сетевого книготоргового магазина). На пер­ вых порах работа велась только с «чисто электронными» публи­ кациями, то есть не имеющими печатных аналогов. В настоя­ щее время диапазон расширен и по согласованию с издателем (это основные издатели научной литературы, например Blackwell, Pearson, Wiley, университеты Cambridge, Oxford, Chicago,

243

Глава 6. Работа по составлению и использованию вторичных документов...

Princeton) поиск осуществляется более чем в 100 тыс. книгах, единственное условие — книга должна быть англоязычной и иметь ISBN. Защита авторских прав решена достаточно изящ­ но. Пользователю будут показаны основные данные книги (за­ головок, автор, издатель и страница, на которой найден реле­ вантный текст); там же пользователю дадут гиперотсылку к се­ тевому торговцу — Amazon.com, BarnesandNobIe.com или собственный магазин компании Froogle. Дальнейший просмотр ограничен двумя предыдущими и/или последующими страни­ цами книги по отношению к той, на которую вышли в результа­ те поиска. Дополнительные средства технической защиты включают деактивацию функций распечатки и копирования. Некоторые издатели закрывают также доступ к особо ценным страницам, например содержащим кулинарные рецепты. Google не требует своей доли оплаты от издателей или от сете­ вых магазинов за «наводки» на их продукцию. Как и в других системах данной компании, их бизнес состоит в предъявлении рекламных объявлений на последней стадии поиска («контек­ стно-нацеленная реклама»). Можно предполагать, что дальней­ шее развитие этой системы пойдет также за счет работы с уже сформировавшимися технологиями электронных книг, напри­ мер с системой NetLibrary (www.netlibrary.com), в которой дос­ таточно хорошо отработаны механизмы контроля доступа, очень похожие на традиционную библиотечную технологию. В течение долгого времени именно книжный формат по самой своей сути как-то обходился без Интернета. Инициатива Google дает книгам новый диапазон роста и развития, на этот раз в Сети. В 2004—2005 гг. Google явно выигрывает гонку в Сети — по количеству публикаций о нем, по восторженным отзывам пользователей, по внедрению идеологии в массовое сознание и речь. Однако же не менее важным может оказаться вторжение Google в реализацию корпоративного (в противоположность частному или индивидуальному) поиска. В течение последних двух лет разработанная Google система «Приложения» (Appliance) — простая в пользовании, как бытовой тостер, и на­ много более удобная, чем все другие программные разработки по бизнес-поиску, — является лидером в покупках среди ком­ мерческих, бесприбыльных и государственных организаций. Можно смело сказать, что, выиграв гонку среди поисковых ма­

244

Комплекс поисковых интернет-систем компании Google

шин, предназначенных для работы в Сети, сейчас Google выиг­ рывает соревнование среди машин для бизнес-поиска — это ре­ зультат обзора и сравнения многих систем для бизнес-поиска, выполненных компанией CMSWatch.com. По мнению многих профессионалов, Google может служить образцом организации сетевого поиска. Покупая другие системы, люди все чаще спра­ шивают: «А она похожа на Google»?

У Google сейчас миллионы пользователей, ежедневное посе­ щение сайта — порядка 350 млн запросов на многих языках! Подход к дизайну — простая и лаконичная система, без глупого утомительного для глаза и для души украшательства или назой­ ливой рекламы, четкий ответ фактически на любой по сложно­ сти или простоте запрос — вот фирменный стиль Google. Даже на сайте, посвященном знаменитой компании «Майкрософт», Google умудрился быть более информативным и полезным, чем сама компания.

Специалисты по информации настолько увлечены мощью данной системы, что уже ввели в обиход обозначение BG (before Google), что означает «эпоха до Гугла». Присутствие Google ощущается в работе всех других крупных компаний — постав­ щиков информационной продукции и услуг, например Lycos, IBM, AskJeeves, Microsoft. Последняя вообще, кажется, играете Google в «догонялки». Вообще инженеры Google заняли то «во­ дительское место» в развитии информационной индустрии, ко­ торое в свое время специалисты Microsoft отвоевали у специа­ листов IBM, выдвинувшись в передовики по персональным компьютерам. Десятки международных поисковых машин так­ же идут в кильватере за Google.

Особенно громким эхом отозвалось объявление в декабре 2005 г. так называемого библиотечного проекта (совместно с Библиотекой Конгресса США), который сразу же вызвал не­ обоснованную, но имеющую уже многих сторонников дискус­ сию на тему: «Зачем нужны библиотеки, если скоро все можно бу­ дет найти в Google?»

Как пишет газета Publishing News (2006. 24 февр.), Google в качестве задела уже оцифровал 10 млн книг и выставляет их бес­ платно в Интернете; при этом в режиме онлайн допускается просмотр, но не распечатка или выгрузка содержания. Google пригласил компанию «Портленд» (Portland), специализирую­

2 4 5

Глава 6. Работа по составлению и использованию вторичных документов...

щуюся на работе по связи с общественностью, для того чтобы яснее обозначить свое присутствие, проводить многочисленные презентации для издателей и публики. Г-н Енс Редмер (Jens Redmer), директор европейского отделения компании, заявил корреспонденту газеты: «По нашим ощущениям, люди не все­ гда понимают, зачем мы здесь и что мы делаем. Поэтому нам приходится разъяснять и воспитывать представителей всевоз­ можных ассоциаций и ключевых участников рынка. Мы совсем не собираемся замещать книги технологиями онлайнового чте­ ния. Что мы действительно хотим, так это создать бесплатную, абсолютно прозрачную систему для издателей, которые помогут узнать об их книгах намного большему количеству людей».

Несмотря на атаку многих издательств, авторы продолжают свою работу, хотя на некоторое время этот проект и был приос­ тановлен.

Вот еще несколько отзывов о феномене системы.

Google, подобно «Макдоналдсу», может просто заявить, что «они в год обслуживают 5 миллиардов раз». Эта система — «Макдоналдс» в сфере информационного поиска. Растет поль­ зовательская база, количество и ассортимент предоставляемых услуг. Google связана с большими деньгами: дело даже не столь­ ко в проведенном под руководством банка Credit Suisse First Boston акционировании. Руководители рекламных агентств толпой идут в Google, поскольку придуманная ими модель по­ каза объявлений, связанных с выдачей результатов поиска, ока­ залась необычайно эффективной, а значит, и заманчивой. На­ помним нашим читателям, что рынок интернет-рекламы пре­ взошел по объему кинематографический рынок. Google создает то, что на языке обитателей Силиконовой долины в Калифор­ нии называется экосистемой с постоянным обновлением. Ком­ пания буквально фонтанирует идеями и полезными интеллек­ туальными сетевыми поделками.

Один из новых видов обслуживания — локализация: если вы запрашиваете новости из Германии, то вам их выдадут автома­ тически и на немецком языке.

Только что предложена потребителям еще одна новинка — Gmail, емкостью 1 Гб и возможностью поиска в сообщении.

246

Комплекс поисковых интернет-систем компании Google

Программа Copyscape (www.copyscape.com) позволяет срав­ нивать содержание двух сайтов и найти повторы, иными слова­ ми, помогает авторам найти нарушения их авторских прав.

Консолидированный набор всевозможных сервисов разме­ шен на сайте Scoople (www.scoople.com).

Еще один рынок, который в ближайшие два-три года может вырасти до объема в 3 млрд долларов, — это рынок бизнеспоиска. Речь идет о поиске и предоставлении информации, по­ лучаемой через локальную сеть организации. Бизнес-поиск включает индексирование каких-то веб-сайтов — как и простой сетевой поиск, но этим дело не ограничивается. Задача бизнеспоиска — обеспечить конкретную организацию или предпри­ ятие именно той информацией, которая ей нужна, быть может, довольно грубое, но понятное определение: «бизнес-поиск — это легализованный промышленный шпионаж». Более подроб­ ное сравнение обычного сетевого поиска и бизнес-поиска при­ ведено в табл. 36.

Таблица 36

Сравнение параметров обычного сетевого поиска и бизнес-поиска

П у б л и ч н ы й п о и с к в И н т е р н е т е

(Google)

За поиск платит рекламода­ тель. Для пользователя по­ иск бесплатен

«Умные» алгоритмы готовы дать ответ на запрос в любой момент. «П оиск — это вол­ шебство* — как сказал поль­ зователь

Результаты поиска демонст­ рируются немедленно, разве что с задержкой, вызванной пропускной способностью пользовательского канала

Простой, ясный пользова­ тельский интерфейс с указа­ телем типа «найди и щелк­ ни» и стандартным поиско­ вым окном

Б и зн е с -п о и с к в И н тер н ете

(V erity К 2)

Стоимость поиска оплачивает организация. Для пользователя поиск бесплатен

Доставка специфических массивов инфор­ мации задается запросами, которые хранят­ ся в памяти системы, реакцией специали­ стов и усовершенствованными алгоритмами

Результаты могут проявиться через какой-то значительный период времени. Отладка ре­ жима поиска может оказаться значительно более сложным процессом, чем предполага­ лось вначале

Не существует общепринятого способа пре­ доставления результатов бизнес-поиска

247

Глава б. Работа по составлению и использованию вторичных документов...

 

П р о д о л ж е н и е т а б л . 36

П у б л и ч н ы й п о и с к в И н т е р н е т е

Б и з н е с - п о и с к в И н т е р н е т е

(G o o g le)

(V e rity К 2 )

Фокусирование интересов на массовом рынке

Выдача результатов в обыч­ ных для Интернет форматах: H T M L , Word, X M L , .pdf

Системы поиска и доставки легко автоматизируются

Обычные автоматизирован­ ные системы («пауки») и технология «проталкивания» обеспечивают индексацию и доставку необходимого мате­ риала

Обновление задается индек­ сирующей системой

Безопасность обеспечивается стандартными средствами

Эксплуатация осуществляет­ ся специально выделенной группой инженеров и спе­ циалистов по анализу содер­ жания

Фокусирование на интересах отдельного подразделения или на каки х -то специальных задачах. Любая организация не может счи­ таться аналогом массового рынка; скорее, это некая федерация специальных потребно­ стей

Абсолютно различные типы файлов: от ти­ пично интернетовских до каких -то специ­ альных разработок

Системы поиска и доставки результатов ну­ ждаются в формулировании каких -то допол­ нительных логических требований: как ра­ ботать со специальными видами докумен­ тов, какие права доступа имеют различные категории пользователей, а такж е многие иные ограничительные мероприятия

Используются комбинация технологии авто­ матического индексирования («пауков»), «проталкивания», а такж е специализирован­ ные разработки

Материал индексируется по программе, со­ ставленной исходя из интересов бизнеса, в том числе и в режиме реального времени

Безопасность ставится во главу угла. Доступ, проверка списка пользователей, предотвра­ щение взлома сайта хакерами и другие меры безопасности входят в число наиболее при­ оритетных

Выделенные инженеры и специалисты не предусмотрены

Обычно бывает достаточно

Обычно предполагается, но не всегда реали­

ощ ущ ения, что работа орга-

зуется концепция дублирования и преодоле-

низована «довольно хорошо»

ния нештатной ситуации. Лю бая неполадка

________________________________ I воспринимается с дрожью в коленках______

248

Комплекс поисковых интернет-систем компании Google

 

 

Окончание табл. 36

П у б л и ч н ы й п о и с к в

И н т е р н е т е

В и зн ес -п о н ск в И нтерн ете

(G o o g le )

 

(V erity К 2)

Желательно получение ре­ зультатов, удовлетворяющих конкретное лицо. Повсеме­ стно распространены рекла­ ма, объявления и т. п.

Ш ироко распространено от­ слеживание того, как ис­ пользуется данный материал

Желательно получение объективных резуль­ татов. Обычно дополнительная информация ограничивается нуждами самой организации (учреждения, предприятия)

Анализ использования выливается в непро­ стую проблему. С одной стороны, отслежи­ вание помогает решению проблем регулиро­ вания, безопасности и лицензирования.

С другой стороны, излишнее внимание мо­ жет привести к потери доверия

Преимущество Google на данном направлении бизнес-по­ иска состоит в том, что пользование этой системой очень про­ стое. Одна из руководителей компании, входящей в список пер­ вых 500 по версии газеты Financial Times, спрашивает: «Поиск внутри документов нашей компании должен работать как Google. Мгновенно. Просто. Выдача результатов на первой странице. Неужели это так сложно?» Правильный ответ: «Да, это очень сложно, мадам! Организовать поиск так, как это дела­ ет Google, очень и очень сложно!»

Еще одна известная всем изюминка Google — свой, нестан­ дартный и неформальный, подход к оценке результатов поиска. Алгоритм, полагается не столько на нейтральные, безусловно объективные, но чаще всего бесполезные формальные данные о релевантности и пертинентности найденных документов, а ра­ ботает «как все люди». Алгоритм ранжирования учитывает на­ личие и количество у найденной сетевой страницы гиперсвязей к другим активным (подчеркиваем, активным!) страницам Се­ ти, анализирует разговоры в Сети (чаты), листсервы, доски объ­ явлений и другие проявления реальных интересов реальных лю­ дей. Грубо говоря, алгоритм «прислушивается» к тому, что люди говорят о данном документе, и если хорошо говорят, то именно этот документ и возглавит список результатов поиска. Такой подход в чем-то копирует систему обмена научной информаци­ ей: известно, что на первом месте у ученых по значимости ис­

249

Глава 6. Работа по составлению и использованию вторичных документов...

точников информации стоят не прочитанные материалы, а ре­ зультаты живого обсуждения с коллегами в кулуарах, на семи­ нарах, конференциях и т. п.

И, наконец, не следует забывать о финансовой мощи. После недавнего выхода на рынок поставщиков информации и на биржу Google стоит больше, чем такие известные компании, как Autonomy, Convera, Fast, вместе взятые! Это значит, что очень скоро все поставщики информации почувствуют присут­ ствие на том же секторе рынка сильного, активного, умного и очень богатого конкурента. В астрономии вы можете доказать присутствие какого-то космического объекта двумя способами: либо непосредственно увидеть его, либо доказать его наличие по косвенным признакам, по воздействию на другие космиче­ ские объекты. Так вот Google наблюдаем с обеих этих точек зре­ ния — как непосредственно, так и по влиянию на других. Сис­ тема стала синонимом быстрого и простого поиска. Вечно заня­ тому потребителю нужен результат поиска, а не лекция о поисковых машинах или об особенностях лингвистической об­ работки естественного языка, байесовской статистики и таксо­ номии.

Ценовая политика компании также весьма разумна: при стоимости ее систем бизнес-поиска от 40 до 250 тыс. долларов нужно понимать, что другие компании запрашивают более мил­ лиона долларов. Если задумываться о будущем, то при всех ва­ риантах можно быть уверенным в необходимости дальнейшего существования библиотекарей и специалистов по информации, ибо огромное большинство людей, даже обремененных науч­ ными степенями, не умеют, как правило, найти необходимую им информацию.

Поскольку технология блогов — последний писк моды, ее не обошли и великие поисковые компании Yahoo! и Google. Вы можете ознакомиься с новостями компаний, посетив адреса www.google.com/googleblog или www.ysearchblo.com

Компания OCLC объявила, что ее сетевой доступ к проекту Open WorldCat Pilot будет осуществляться с помощью поиско­ вой системы Google. Цель проекта — вывести пользователя не­ посредственно на ближайшую к нему местную библиотеку, в которой имеется необходимый документ. В данном проекте ис­

250

Соседние файлы в папке книги