Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Электронная информация и электронные ресурсы

..pdf
Скачиваний:
2
Добавлен:
20.11.2023
Размер:
20.88 Mб
Скачать

Информационный поиск в Интернете

Схемы классификации ресурсов в Интернете — это, как прави­ ло, древесные структуры, узлы которых названы словами есте­ ственного языка. Различные классификационные схемы отли­ чаются друг от друга по объему и методологии их составления. Одним из недостатков универсальных иерархических класси­ фикаций является то, что они консервативны и отстают от раз­ вития науки, техники и технологий. Главная проблема класси­ фикационных поисковых служб — это автоматизация класси­ фикации.

До сих пор задача автоматической классификации удовле­ творительного решения не нашла. Регистрация веб-сайтов и веб-страниц в каталогах, как правило, осуществляется людьми. И поэтому объем базы данных систем классификационного ти­ па невелик по сравнению с информационной емкостью всего Интернета.

Для оптимизации охвата ресурсов Интернета создают систе­ мы нового типа — метапоисковые, они не имеют собственных поисковых баз данных, не содержат никаких индексов и при по­ иске используют ресурсы других поисковых систем. Однако от­ сутствие единого стандарта языка запросов не позволяет мета­ системам добиваться от поисковых систем, выполняющих их запросы, такого же результата, какого может добиться опытный пользователь при работе с ЭВМ по отдельности.

Основным средством поиска информации в Сети сегодня следует считать глобальные И ПС вербального типа (search engines), индексирующие (по крайней мере, претендующие на это) все интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast Search (All the Web), Alta Vista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди россий­ ских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Полнота поисковой базы и опера­ тивность индексирования веб-сайтов является главной пробле­ мой всех ИПС в Интернете. Как правило, системы с большим объемом базы дают в результате поиска и большее количество документов. Большая как лингвистическая, так и программная проблема — многоязычие информационного пространства Ин­

231

Глава б. Работа по составлению и использованию вторичных документов...

тернета и форматов представления данных. Тем не менее основ­ ные глобальные системы с этими проблемами справляются.

Для обеспечения «видимости» вашего сайта и его содержа­ ния, для осуществления поиска нужно выполнить следующие операции над документом:

составить поисковый образ документа;

зарегистрировать этот документ или источник документов в поисковых машинах;

выбрать необходимую вам поисковую систему;

провести непосредственно сам поиск.

Подчеркнем еще раз: без регистрации вашего источника до­ кументов вероятность «быть замеченным» в мире Интернета очень невысока. Эти операции должны также выполняться в ус­ ловиях совместимости ресурсов и поисковых средств, иначе «розетка не подойдет к вилке».

Мало того, что поиск ресурсов в Сети затруднен, но ему ме­ шают еще и различные недобросовестные пользователи, просто жулики и обманщики, проникшие в среду Интернета. Если у вас создалось впечатление, что Yandex или Rambler выдал много результатов, но попадаете вы неизменно на одну и ту же веб-страницу, не надо думать, что это компьютерные пробле­ мы. Просто вы стали жертвой поискового спама, который осо­ бенно активно в последнее время используют недобросовест­ ные компании. Избежать поискового спама нельзя, так как не все спамерские сайты можно удалить автоматически. Чистить результаты поиска иногда приходится вручную. Отношение к нечестным оптимизаторам у профессионального сообщества должно быть самое строгое, так как они превращают поиск в Интернете в абсолютно бесполезное занятие: вместо нужных пользователю страниц выдаются страницы, нужные рекламода­ телю. Самоуверенность людей по отношению к себе и к инфор­ мации из Интернета просто вдохновляет. Как утверждается в обзоре, выполненном компанией Pew Project, в 2004 г. 87% оп­ рошенных пользователей сетевых поисковых машин считали, что они найдут то, что им необходимо. При этом только 38% по­ нимали разницу между предоплаченными результатами поиска и независимым поиском, и только 18% могли внятно объяс­ нить, в чем здесь разница.

232

Функциональные требования к библиографическим записям...

Информационно-поисковые языки составляют две большие группы: предкоординатные (например, УДК, ДДК, ББК, ГРНТИ, др.) и посткоординатные (дескрипторные), опирающие­ ся на созданные тезаурусы или массив ключевых слов. Поиско­ вый запрос, по данным статистики компании OCLC, состоит в среднем из 2,4 слова.

Что такое электронный каталог сегодня? «Каталог должен быть эффективным инструментом для установления, имеется ли в библиотеке данная конкретная книга, которая специфици­ руется:

а) своим автором и названием; б) если автор не назван в книге, то только своим названием;

в) если автор и название не подходят или недостаточны для идентификации, то подходящей заменой для названия; какая публикация данного конкретного автора и какое издание кон­ кретной работы имеются в библиотеке»*.

В целом, конечно, хорошо организованный и «видимый» отовсюду электронный каталог библиотеки в Интернете откры­ вает фонды библиотеки для пользователей, где бы они не нахо­ дились, а снабженный хорошим СПА электронный каталог по­ зволит пользователю оперативно и комфортно найти нужные ему ресурсы, в том числе и полнотекстовые. Во многом успех получения нужных текстов зависит от качества библиографии, описывающей эти тексты (документы).

6.3.Функциональные требования

кбиблиографическим записям и электронные каталоги

Аббревиатура FRBR (Functional Requirements for Bibliographic Records) повторяется часто. Исследование функциональных требований к библиографическим записям (ФТБЗ) было начато по инициативе ИФЛА. Модель ФТБЗ можно смело назвать ре­ волюционной. В случае ее реализации окажется, что электрон­

* И з статьи Евы Вероны «Заявление о принципах». Международная конф еренция по принципам каталогизации, Париж , 1961. Verona, London, 1971.

233

Глава 6. Работа по составлению и использованию вторичных документов...

ный каталог уже не является просто последовательностью биб­ лиографических записей и простой репликой (калькой) тради­ ционного карточного каталога. Электронный каталог превратится в сложную сетевую структуру взаимоувязанных ка­ тегорий (сущностей, объектов), что даст возможность пользова­ телю выполнять все необходимые ему (ей) функции самым ес­ тественным образом и без лишних препятствий. К настоящему времени проведены теоретические обсуждения данной модели, а также скромные по масштабам эксперименты. Основное вни­ мание уделено тому воздействию, которое окажет данная мо­ дель на конструкцию электронных каталогов, в том числе на функциональность поиска и выдачу результатов поиска.

Модель каталога как системы взаимосвязанных объектов. Для модели ФТБЗ была выбрана методология взаимоотношения объектов между собой. Это значит, что определен набор интере­ сующих пользователя объектов (сущностей, категорий) и пере­ числены отношения между ними. Затем идентифицируются наиболее важные характеристики (атрибуты) каждого из объек­ тов.

Назовем три группы объектов.

Впервую группу (ее можно назвать библиографические объек­ ты) входят такие объекты (категории), как произведение, его выражение, его проявления (манифестация), экземпляр. Эти объекты представляют информацию, традиционно содержа­ щуюся в формальной каталогизационной части библиографи­ ческой записи.

Во вторую группу входят объекты имени: имена отдельных личностей, коллективов, отвечающих за интеллектуальное или художественное содержание, физическое производство, рас­ пространение и сохранность библиографического объекта.

Втретью группу (предметные категории) входят сущностные показатели данной работы — концепция, объект, событие, ме­ сто. Объекты первой и второй групп также могут быть субъек­ том работы.

Взаимоотношения в данном случае реализуют связи между объектами. Они дают пользователю возможность осуществлять навигацию внутри библиографической базы данных и за ее пре­ делами. Отношения могут связывать объекты, принадлежащие к различным либо к одинаковым группам. Например, отноше­

234

Функциональные требования к библиографическим записям...

ния между самой работой и всеми видами ее проявления либо отношения между автором и его работой, между всеми видами выражения данной работы (например, ее переводами на другие языки).

На основании доложенных на секциях и семинарах ИФЛА 2003—2005 гг. результатов отмечено, что были исследованы че­ тыре характерные задачи, с которыми пользователь работает в процессе поиска.

1.Найти объекты, которые соответствуют поисковым крите­ риям (найти один или несколько объектов в файле или в базе данных) как результат поиска с применением признаков (атри­ бутов) или с использованием выявленных связей между объек­ тами.

2.Идентифицировать объект, то есть подтвердить, что опи­ сание объекта соответствует тому, что вы нашли; вариант — найти различия между объектами с одинаковыми характеристи­ ками.

3.Выбрать объект, который подходит под заявленные поис­

ковые критерии — в смысле содержания, физического формата и т. п., или же отбросить объект как несовместимый с заявлен­ ными требованиями.

4. Обеспечить доступ к объекту, то есть получить его либо купить, либо взять взаймы, либо найти в Интернете.

В разработанной модели введено очень полезное понятие приоритетов (высокий, средний, низкий). Например, «назва­ ние» имеет самый высокий приоритет, а «предполагаемая чита­ тельская аудитория» — невысокий; форма произведения — средний приоритет. Отношения в системе «произведение — персональный или коллективный ответственный за работу» имеют высокий приоритет для целей поиска. Для задач селек­ ции одинаково высокий приоритет имеют наименование и форма. Язык произведения имеет среднее значение для задачи поиска, но высокое значение при идентификации и отборе. Данная модель предполагает ориентацию на произведение, и можно смело сказать, что она означает пересмотр отношений между библиографическими и нормативными записями. Если быть абсолютно точными в формулировках, то применение ФТБЗ не зовет к революции, однако такая революция логиче­

235

Глава 6. Работа по составлению и использованию вторичных документов...

ски следует из сути использования этих требований. Можно го­ ворить о тихой революции или мине замедленного действия.

Электронный каталог уже не рассматривается как линейная последовательность записей. Правильнее сказать, что формиру­ ется сеть из взаимосвязанных объектов и категорий, и это пол­ ностью отвечает поставленной задаче. В принципе значения всех признаков и всех объектов могут использоваться в качестве поисковых полей (точек доступа). Введение новой модели под­ рывает саму суть процесса поиска документа, существовавшего доныне. Традиционная процедура формирования карточного каталога любого типа — алфавитного, систематического, пред­ метного — достаточно жестко закрепляет положение каталож­ ной карточки относительно ее «соседей», и это закрепление осуществляется в момент создания каталога или добавления карточки. В электронном каталоге порядок расположения запи­ сей не имеет значения, группирование по сходным признакам осуществляется в момент проведения поиска. Заслуживают внимания проекты Скандинавских стран по созданию автома­ тической системы конверсии записей из формата MARC в мо­ дельную схему ФТБЗ.

Некоторые замечания относительно каталога будущего. В нем в удобном и приемлемом порядке должны отражаться все произведения данного автора. Если читатель ищет издание по его названию, то все издания данного произведения должны быть видны. Все переводы должны находиться под единым и оригинальным наименованием. Модель Ф ТБЗ содержит боль­ шое количество точек доступа и, помимо всего прочего, систему «отношений», что обеспечивает наиболее ценное качество электронного каталога: возможности навигации как внутри са­ мой базы данных, так и во всем библиографическом простран­ стве. Исчезает разделение между библиографическими и нор­ мативными записями, взамен которому предлагается сеть взаи­ мосвязанных объектов.

Конструкция электронного каталога будет изменена, по­ явятся новые дополнительные возможности поиска и новые форматы представления информации на дисплее. Ведь даже форматы MARC сохраняют характеристики карточного катало­ га, поскольку изначально целью их создания было упрощение системы распределения каталожных карточек. Значительное

236

Комплекс поисковых интернет-систем компании Google

количество информации, отображенной в системе MARC-за- писи, до сих пор не используется в поисковых целях. Если мо­ дель ФТБЗ будет реализована, то потребность в использовании ключевых слов уменьшится, поскольку будет создана возмож­ ность навигации непосредственно от тех материалов, которые в данный момент экспонируются на экране дисплея. Достаточно вероятный механизм для реализации таких методов — это ги­ персвязи, которые де-факто являются стандартом в данной об­ ласти. Помимо гиперсвязей необходимо будет разработать ме­ ханизм, связывающий между собой целые объекты, например связь данного произведения со всеми из него сделанными вы­ держками или с различными формами данного произведения.

6.4. Комплекс поисковых интернет-систем компании Google

Развитие интернет-ресурсов и интернет-технологий в плот­ ном множестве дискуссий и споров шло своим чередом, но объ­ явленный в конце декабря 2005 г. проект «Мировая элект­ ронная библиотека», о котором заявила одна из крупнейших интернет-компаний Google, да еще совместно с Библиотекой Конгресса США, заставил многочисленную аудиторию вновь заговорить о Google.

Google — это переиначенный термит googol (гугол), который означает Ю100, то есть единицу со 100 нулями. Этот термин вве­ ли в 1938 г. в своей книге американские математики Эдвард Каснер и Джек Ньюлли (сам термин придумал племянник Каснера Милтон Сиротта) и, по общему мнению, во Вселенной нет ни одного материального объекта в количестве гугола единиц. Сергей Брин (Sergey Brin), один из основателей и президент компании Google, выходец из СССР, так назвал свою систему, чтобы выразить масштаб Интернета. Недавно президент Буш поддержал новый законопроект об упрощении легализации им­ мигрантов, и в качестве политического примера назвал им мо­ лодого выходца из СССР, выпускника Стэндфордского универ­ ситета и ныне миллиардера Сергея Брина, создавшего на пару со своим приятелем Ларри Пейджем (Larry Page) одну из самых крупных компаний, и не только в Интернете.

237

Глава 6. Работа по составлению и использованию вторичных документов...

Компания Google была зарегистрирована в сентябре 1998 г. (Брину было 26 лет), сейчас ему 32, и он, кстати, не женат, ездит на «тойоте», любит борщ и блины.

Созданная система уже через год стала популярной главным образом за счет простоты в использовании, простоты интер­ фейса и большой точности в получении запрашиваемых резуль­ татов поиска.

Популярность Google объясняется комбинированием двух простых методов — формулировкой запросов на естественном языке и выдачей результатов в соответствии с популярностью ресурса; кроме того, Google ввела уникальную возможность со­ четать поиск с использованием сетевого предметного каталога. Идеалы Google твердо стоят на принципах простоты, мини­ мальности и вместе с тем утонченности и изощренности поиска для профессиональных заказчиков.

Сегодня Google имеет и русскую страницу, и может осуще­ ствлять поиск на русском языке, а вообще — на 26 языках. По оценкам многим экспертов, Google сегодня превосходит мно­ гие конкурирующие технологии, в частности Alta Vista, FAST, а «механизм» Google используется крупнейшим мировым сете­ вым каталогом Yahoo!

«Google — это ближайшее место в Интернете, где можно найти ответ на любой вопрос». Именно это мнение многих пользователей Интернета, особенно в последние годы, резко увеличили армию пользователей Google, в том числе и среди библиотечных работников и пользователей библиотек.

Поисковая интернет-система Google необычайно популяр­ на, потому что очень проста. Если другие поисковые системы утяжеляли свои домашние страницы многочисленными опция­ ми, то Google избрала принцип разумной простоты.

Удивительно то, что система нравится одинаково и нович­ кам, и опытным профессионалам поиска. Дело в том, что она лучше всего работает с запросами, сформулированными на про­ стом языке, без применения булевых терминов. Например, вы напечатали запрос «Билл Клинтон»; машина сама будет искать все материалы, в которых эти два слова употребляются вместе. При этом другие словосочетания, в которых участвует слово «bill» (долларовый билль, билль о правах и т. п.), равно как и все другие Клинтоны, — будут опущены и не войдут в результаты

238

Комплекс поисковых интернет-систем компании Google

поиска. Система Google (в отличие от широко известного пор­ тала Alta Vista) не обращает внимания на строчные или пропис­ ные буквы в поисковом запросе. Еще один простой, но необы­ чайно эффективный прием — приоритет тому сайту и соответ­ ственно адресу документа, который чаще других спрашивается (то есть количеству входящих адресов, зарегистрированных на найденном файле). Google выдает ответ не только на поисковый запрос, ранжированный по числу обращений к данному мате­ риалу (то есть по популярности данного ресурса среди сообще­ ства пользователей Интернетом). Это особая философия, осно­ ванная на предположении, что все люди имеют схожие пробле­ мы и вопросы, и вам, вероятнее всего, нужно то же, что и другим. Роль библиографа, индексатора и систематизатора электронных ресурсов при данной методике поиска уже не яв­ ляется определяющей. Комбинирование этих двух простых ме­ тодов: формулирования запросов на естественном языке и вы­ дачи результатов в соответствии с популярностью — оказалось чрезвычайно эффектным. Даже в политике публикации рек­ ламных объявлений Google идет своим путем — вам дается только та реклама, которая прямо соответствует вашим поиско­ вым запросам. Например, при запросе архива Интернета ника­ кой отвлекающей ваше внимание рекламы не появится, а при запросе «междугородний телефон» вы получите рекламный список компаний, дающих скидку на междугородние телефон­ ные переговоры.

Еще одна новинка Google — сетевой предметный каталог, использующий таксономию, разработанную в ходе реализации проекта Открытого каталога. (Открытый каталог — несколько утопический проект, согласно которому любой пользователь Интернета может стать соучастником пополнения каталога, внося туда свои библиографические записи. Идея полностью перекликается с идеей открытой операционной системы Линекс.) Сейчас в базе данных Открытого каталога 1,5 млн адресов файлов; в тысячу раз больше адресов имеется в указателе основ­ ной поисковой машины системы Google.

Уникальное сочетание возможностей поиска и предметного просмотра с ранжировкой найденных ответов на запрос по их сетевой популярности повышает эффективность работы. Пред­ полагаемый в настоящее время вариант продвинутого поиска

239

Соседние файлы в папке книги