книги / Сетевой информационный поиск
..pdfПоиск в онлайновых каталогах универсальных и специализированных библиотек 161
кетирование, разработаны специальные опросныелисты—для пользова телей, обращающихся к посреднику, и для пользователей, оценивающих работу посредника. При этом часто отмечается, что работа поисковика— это комбинация умений выполнять поиск и умений правильно провести собеседование с пользователем, включая анализ его запросов. Вне вся кого сомнения, при освоении поисковых приемов хотя бы предвари тельное представление о таких методиках или только обдумывание их содержания является полезной практикой.
И специалист-поисковик, и обычный пользователь (в США его име нуют end user) должны уметь правильно выбрать тактику и стратегию поиска (Search strategy). Прежде всего необходимо научиться перево дить свои вопросы в «понятную для вычислительной техники форму». Это означает, в частности, что вопросы типа «почему», «зачем» и т. д. должны быть умело переформулированы. Недаром существует извест ное выражение «доступ пользователя к информации ограничен его спо собностью задавать вопросы».
Н епосредственная постановка поисковой задачи влияет на харак тер всей стратегии поиска. Пользователю необходимо осознать это уже перед формулировкой запросов и влиять, естественно, на их поста новку. П риведем пример двух поисковых задач, предполагающих полностью противоположную тактику поиска. При написании обзора, диссертации, серьезного отчета, а иногда и дипломной работы встает задача о нахождении максимального числа источников (документов, ресурсов), имеющих отношение к данной проблеме. Чем больше ис точников мы найдем и изучим, тем более убедительными станут мно гие выводы. При этом для нас не очень существенно то, что при поиске может появиться много информационного шума, то есть много нереле вантных документов. В этом случае последующая обработка найден ных данных может занять много времени и, соответственно, требуется увеличение такой характеристики поиска, как коэфициент полноты — Recall (см. главу III). Это может быть достигнуто за счет расширения типа поиска: использования более широких терминов, введения но вых ключевых слов и даже увеличения числа изучаемых БД. Проти воположная ситуация характеризуется тем, что пользователю нужны одна-две точные ссылки по проблеме, не более того. Пусть, например, некто пишет статью, посвященную истории производства цветных ме таллов. И звестно, что первые порции алюминия имели цену, превы шавшую цену золота, но автору необходимо подкрепить этот факт па- рой-другой ссылок. Тут полнота изучения вопроса не важна — важно лишь хорош ее соответствие найденных данных теме запроса. Это оз начает, что коэффициент полноты может быть и небольшим, но та ха
162 |
Глава 6 |
рактеристика, которая назвается точность (precision), должна быть по возможности большей, и достигается это за счет сужения характера запроса. Вообще же отметим, что при поискемеры, приводящие кувеличению коэффициентаполноты, вызывают уменьшение точности. Вер но и противоположное утверждение.
Тактика поиска может меняться во время его выполнения. Пусть вы начинаете знакомиться с новой проблемой (ситуация достаточно час тая). На поставленный запрос поступает нужная информация, однако ее количество слишком велико. В этом случае следует переориентировать поиск и искать уже не все возможные документы, а ориентироваться, например, на нахождение различных обзоров и даже на преимуще ственный поиск книг (а не статей). Кстати, в этих материалах может
оказаться огромное количество ссылок на документы, которые бы вам дал первоначальный тип поиска, однако теперь эти материалы будут уже структурированы и детально обсуждены. Ситуаций подобного типа дос таточно много. Пользовательдолжен уметь проанализировать их до нача ла поиска или после получения первых результатов, а затем на этой осно ве скорректировать свои поисковые запросы.
Естественно, что все вышесказанное не связано непосредственно с сетевым поиском. Классические методы поиска ставят перед пользо вателем те же проблемы, однако при сетевом поиске эти проблемы ста новятся более «выпуклыми». Кроме того, именно сетевой поиск позво ляет быстро и эффективно перестроить всю тактику работы, применяя (при наличии устоявшихся навыков) достаточно простые меры.
Перейдем теперь от общих вопросов к вопросу о том, какие чисто тренировочные приемы следует использовать при ознакомлении с ме тодиками поиска. Естественно, что, как и в случае обычного бытового поиска, необходимо прежде всего проверять работу с любой описывае мой и с любой новой каталожной системой. Проверка идет по методу «нашел — не нашел». Поскольку мы никогда с уверенностью не можем сказать, имеется ли нужный документ в данном каталоге или БД, в слу чае отрицательных результатов поиска мы никогда не сможем оконча тельно понять, связан ли такой результат с нашими неправильными действиями или с отсутствием документа в БД. Для этого требуются новые попытки и некоторые пробные документы, которые практиче ски наверняка имеются в соответствующем хранилище (о необходи мости иметь такие тестовые документы мы уже говорили). Упомянутые проверки говорят только о том, что пользователь освоил начальную тех нику работы, а хорошо ли проводится поиск, удовлетворяет ли его тре бованиям обследуемая БД — это уже более сложные вопросы. Тем не менее и в этой области возможно произвести определенные оценки,
Поиск в онлайновых каталогах универсальных и специализированных библиотек 163
которые позволяют оценить и качество поисковой тактики конкретного пользователя.
Само качество работы и пользователя, и поисковика-посредника в конечном итоге основывается на определении полученных ими в раз ных ситуациях значений коэффицентов полноты и точности. Обе эти величины основываются на оценке релевантности документов, кото рая входит во все выражения, описывающие качество поиска. Эти вы ражения понятны и однозначны, однако их реальная ценность опре деляется оценкой самой релевантности. Мы уже выше говорили о сложностях оценки релевантности документа, но эти сложности были связаны с характером факторов, учитываемых при оценке релевантно сти. На самом деле, если отвлечься от этих проблем, сложности в опре делении релевантности документа связаны с тем, что оно носит сугубо личностный характер. Даже один и тот же пользователь может изме нить оценку релевантности одного и того же документа в связи с ана лизом всех поступивших в его распоряжение материалов поиска, и эта оценка может меняться с течением времени. В том случае, если пользо ватель обращается к помощи посредника, следует обязательно выяс нить, совпадает ли у них оценка релевантности одних и тех же доку ментов. Это достаточно непростые вопросы, на которых обязательно нужно сосредоточить свое внимание. Это особенно важно в тех случа ях, когда обучение поисковым приемам происходит под руководством опытного преподавателя или эксперта. Тем не менее на начальной ста дии обучения поисковым приемам очень важно, отвлекшись от дета лей, состредоточиться на некоторых других обстоятельствах, связан ных с использованием понятия релевантности.
Пусть все индивидуальные факторы, определяющие релевантность документа, нами учтены. В этом случае, вычисляя величины коэффи циента полноты и точности, мы можем оценить качество поиска у кон кретного пользователя и исследовать его учебную динамику. При этом проблем в определении точности не возникает, так как оба числа в вы ражении — это величины,'определяемые по результатам поиска. Ины ми словами, они подсчитываются непосредственно, если в найденных при поиске документах мы можем выделить релевантные. Совсем иная картина возникает при определении коэффициента полноты. В знаме нателе этого выражения стоит число релевантных документов, кото рые имеются в БД, но это число не известно. Именно с определением полного числа релевантных документов и возникают все трудности при определении коэффициента полноты. В ряде случаев с учебными целями создаются относительно небольшие по своему объему учебные или тренировочные БД. Совсем не обязательно, чтобы эти тренировоч
164 |
Глава 6 |
ные БД создавались для оценки эффективности сетевого поиска*. Для тренировки в электронном поиске по относительно широкому кругу проблем учебные БД должны быть гораздо больше. По имеющимся у нас сведениям, в США с этой целью создавались БД с общим числом описанных в каталоге ресурсов от 20 до 30 тыс. Если учесть, что коли чество записей в каталогах крупных библиотек достигает нескольких миллионов, то такой размер учебной БД представляется разумным. Естественно, что профессионалы-педагоги, готовящие такие учебные БД, знают число релевантых документов в такой БД по тем пробле мам, которые используются для учебы и тренировки.
Чтобы подобной БД могли пользоваться другие преподаватели, она должна быть дополнена соответствующим методическим описанием. Подготовка БД такого рода — достаточно сложный и длительный процесс. Мы знаем только одну российскую тренировочную БД для электронного поиска, которая будет описна нами при знакомстве с каталогами РГБ и РГБ — это БД для корпоративного каталога обеих библиотек. Имеются ли при этой БД необходимые для определения коэффициента полноты методические указания, мы, к сожалению, ска зать не можем. Создание других общедоступных тренировочных БД для российских пользователей пока что можно считать делом ближай шего будущего. Зарубежными тренировочными БД, даже при их дос тупности, следует пользоваться с осторожностью, так как языковые и некоторые другие проблемы могут заметно повлиять на результаты. Если вы желаете найти адреса таких БД, то следует знать, что их при нято называть ONTAP(On-line TrainingAndPractic — тренировки и обу чение в режиме прямого доступа).
В России обучение приемам поиска производится до сих пор без ши рокого использования учебных БД. В этом случае необходимо исполь зовать сравнительные методики оценки качества учебного поиска. Если занятия проводятся опытным преподавателем или если обучающемуся доступны результаты поиска, проведенного квалифицированным экс пертом, то можно определить отношение коэффициента полноты, най денного обучающимся, к коэффициенту полноты, полученному квалифцированным экспертом. Это отношение называют сравнительным
* Авторы имеют небольшой положительный опыт обучения студентов в учебной БД, созданной для обычного поиска по карточному каталогу. Поскольку студенты обу чались поиску только по материалам, связанным с одной довольно узкой проблемой, число документов в такой БД было близко к 100 наименованиям, и естественно, что при подготовке учебной БД мы заранеезнали полное число релевантных документов в этой БД. При этом определение коэффициента полноты для каждого студента не вы зывало никаких затруднений, а сами величины этого коэффициента были точными и объективными.
Поиск в онлайновых каталогах универсальных и специализированных библиотек 165
(iотносительным) коэффициентом полноты (comparative recall). При большой разнице в коэффициентах полноты у учащегося и у преподава- теля-эксперта выделяют пропущенные учащимся документы и затем особо анализируют причины, по которым они не были найдены. При отсутствии эксперта можно сравнивать результаты поиска, выполнен ного разными учащимися. Исследуют также зависимость всех описан ных показателей от времени, то есть оценивают их динамику. Особенно важно выяснить, влияет ли на качество поиска то, в какой области зна ний он производится. Может оказаться, что тот или иной обучющийся лучше (или хуже) выполняет поиск только в некоторых областях зна ния. Даже при самостоятельной подготовке можно пытаться в той или иной форме использовать для самооценки приемы такого типа.
Результаты поиска зависят не только от подготовки пользователя, но и от качества учебной БД и качества поисковой программы. Приемы, схожие с описанными, можно использовать и для оценки этих величин, но ими имеет смысл заниматься только тогда, когдауже достигнут опре деленный уровень проведения поиска. По этой причине соответствущие проблемы мы здесь не затрагиваем. Следует учесть, что в каждой облас ти знаний имеются некоторые основополагающие работы. Если поиско вая программа не может их обнаружить или если выясняется, что в не которой БД они просто отсутствуют, лучше всего произвести смену программы или, соответственно, БД. При обучении работе с большими поисковыми машинами словарь терминов не очень важен — машины изучают весь текст каждого ресурса на наличие слов (терминов) запро са. При работе же с библиотечными системами пользователь в неявном виде опирается на словари терминов (тезаурусы) соответствующей БД. Слабое владение соответствующи словарем отрицательно влияет на ка чество поиска. Именно поэтому ознакомление с тезаурусами тех БД, которые будут в дальнейшем использоваться пользователем в его прак тической работе, является существенной частью обучения. Ответственость за это зачастую ложится на плечи самого обучающегося.
В заключение несколько слов о подготовке пользователя-руково- дителя. Решая вопрос об использовании посреднической фирмы или же индивидуального посредника, следует не жалеть времени и средств на поручение одного и того же задания разным исполнителям — толь ко сравнение результатов их поиска по времени, полноте результатов и цене позволит правильно сориентироваться в выборе постоянного помощника*.
* Тем не менее периодические контрольные проверки и опросы тех, кто непосред ственно контактирует с поисковиками, позволяют выбрать правильную тактику под бора исполнителей.
166 |
Глава б |
Теперь, после всех вводных слов, мы можем перейти к изучению конкретного материала и начать, как мы и обещали, с изучения элект ронных каталогов Библиотеки конгресса США.
Работа с электронными каталогами
/Библиотеки конгресса США
ВБиблиотеке конгресса США (далее БК) имеется несколько ка талогов, но для нас наиболее интересным является каталог, в котором сосредоточены данные о печатных документах, и на него мы и обратим основное внимание. Остальные каталоги (например, каталог видео изображений и каталог звукозаписей) мы затронем в конце раздела только для общего знакомства. Сайты БК имеют несколько независи мых «входов», и переход от одного входа кдругому в пределах уже выб ранного сайта возможен без больших проблем. Наиболее известным URL-адресом БК является http//www.loc.gov*.
Воспользовавшись указанным выше адресом, мы попадаем на глав ную страницу БК (рис. 21)**. На фоне изображения самого известного читального зала этой библиотеки расположены надписи-кнопки. Мате риалы, на которые можно попасть, нажимая эти кнопки, обширны и интересны. Путем нажатия одной из них можно перейти к интересую щему нас Online Catalog, однако намного удобнее (а при постоянной
работе и проще) воспользоваться прямым входом в этот каталог — http://catalog.loc.gov. Несмотря на то что литературы (особенно на рус ском языке), посвященной сетевому библиотечному поиску, мало, иног да все же можно найти описание соответствующей главной страницы. Оно соответствует изображению, приведенному на рис. 22. В верхней части этого изображения имеется малозаметная надпись, на которую до вольно часто не обращают внимания. В ней говорится о том, что ката лог доступен в течение каждого дня недели круглосуточно, за исклю чением двух кратких рабочих перерывов в час и в 3 часа ночи по восточному времени США (оно отстает от московского времени на 8 часов). Об этом иногда забывают и удивляются трудностям соедине ния. Иногда, особенно после больших праздников и в вечернее время (начиная примерно с 17 часов по московскому времени), при выходе с главной страницы на рабочие соединения может появиться сообщение о загрузке всех линий с рекомендацией обратиться снова через не сколько минут. На самом деле такие перегрузочные перерывы могут
*Часто встречающееся сокращение и домены /ос являются аббревиатурой выра жения Library of Congress — Библиотека котресса).
**В последние месяцы дизайн страницы несколько изменился.