книги / Сетевой информационный поиск
..pdfПоисковые системы и выполнение бытового поиска |
101 |
В заключение несколько слов о терминологии. Вы уже заметили, что термин каталог используется не только в своем прямом смысле, но и для обозначения типа поисковой системы, основанной на использова нии каталога. В нашем пособии мы стремились обходить эту трудность, говоря о поисковых машинах или системах типа каталог, или же просто говоря поисковый каталог. Сложнее обстоит дело с русскоязычным термином поисковая машина. Как следует из сказанного в этом разде ле, этот термин применяется как для обозначения вообще всех типов поисковых систем, так и для обозначения одной из двух возможных их групп. В ряде случаев для обозначения этой группы поисковых систем говорят Системы поиска по ключевым словам. Таким образом и в Ин тернете, и в литературе, использующей классические носители, термин Поисковые машины не однозначен, и с этим неудобством приходится считаться. В нашем пособии мы, по возможности, в соответствующих ситуациях стремились всегда делать соответствующие оговорки.
/ Как правильно приступить к поиску и какую
поисковую машину лучше выбрать?
Освоивший основы поисковой техники человек, встречаясь с новой задачей и решая ее с помощью Интернета, сразу же стремится обратиться к наиболее известным поисковым машинам широкого про филя. Для России это прежде всего Яндекс, Рамблер и Апорт (сразу же сделаем оговорку, что порядок расположения и отбор нами поисковых систем для примера никак не связан с нашей оценкой их полезности или качества). Сам поиск обычно производится по упрощенной схеме (в общем, такой подход не оптимален, но он существовал и, скорее все го, будет существовать всегда; авторы и сами частенько грешат таким методом поиска). Тем не менее существуют пути оптимизации поиска, основанные на правильном выборе поисковой машины или же нахож дении сразу нужных БД и URL-адресов. Мы постараемся изложить здесь общие принципы оптимизации поиска, осознавая при этом, что приемы оптимизации поиска разработаны и хорошо описаны в ресур сах Интернета главным образом для англоязычных поисковых систем. В русскоязычных ресурсах такие рекомендации еще только начинают появляться, и поэтому ряд наших рекомендаций имеет некоторые язы ковые ограничения при их использовании.
Самой общей рекомендацией является проведение анализа той по исковой задачи, которая ставится пользователем. Различие задач свя зано со степенью конкретизации запроса, который может быть очень общим и не вполне конкретным, а может быть достаточно четко огра
102 |
Глава 4 |
ниченным некоторой предметной областью. Ограничение предметной области отнюдь не связано с профессионально ориентированным поиском.
Представим себе, что вам предстоит побывать в некотором отдален ном регионе. При этом вам могут понадобиться достаточно подробные географические карты. Интерес к картам может возникнуть и при чте нии художественной литературы, и при исторических изысканиях. Искать непосредственно географические карты в обычных ресурсах Интернета не разумно. Конечно, описания городов, особенно тех, где туристские потоки значительны, сопровождаются публикацией про стейших туристских карт; легко доступны карты железных дорог и речных путей разных стран. Тем не менее карты с подходящим масш табом, карты удаленных районов и исторические карты с помощью обычных поисковых машин можно отыскать только в несколько эта пов. Эти материалы — типичный Deep Web. Если вам сразу ясно, что нужные материалы — это Deep Web, следует в первую очередь обра титься к соответствующим справочным ресурсам, описывающим имен но линки Deep Web. Существуют специальные URL-адреса, где можно найти необходимую справочную информацию, имеющие название
Subject Directories {Предметные справочники). Эти справочники быва ют двух типов. Первый — это Академические и профессиональные спра вочники {Academic and Professioal Directories), или же просто Професси онально ориентированные справочники. Второй тип — это справочники и порталы различных коммерческих фирм. Они не имеют специально го названия и пользование ими зачастую является платным. В зависи мости от поисковой задачи при обращении к Deep Web можно сразу же оценить, в каком из таких справочников следует поискать линк для ре шения интересующей вас задачи. Так, для приведенной в качестве при мера поисковой задачи с географическими картами можно сразу ж е от правиться по адресу: http://geograpky.miningco.com/library (напомним, что на этом же сервере сосредоточены данные о библиотечно-библио графических классификациях). Указанный нами адрес дает возмож ность получить огромное количество карт всех регионов мира (есте ственно, СШ А освещены лучше) и имеет возможность перехода на другие линки с географическими картами.
Если осуществляется поиск полнотекстовой информации, которая может храниться в электронных библиотеках, то следует обратиться к справочникам адресов электронных библиотек. Например, для начала можно обратиться к русскоязычному сайту: http://www. permcnti. ги / library/, а также к http://www.cip.nsk.su. Адреса таких справочных сай тов, если вы их не знаете, можно отыскивать с помощью обычных по исковых машин. За информацией об электронных библиотеках можно обратиться и к http://www.elibrom.com. Если вас интересуют биографи
Поисковые системы и выполнение бытового поиска |
103 |
ческие данные об известных личностях, то можно сразу же обратиться к адресу: http://www.biography.com. В России также имеются биографи ческие сайты. Мы можем рекомендовать вам сайт Всероссийское генеало гическое дерево (http://www.vgd.ru) и справочный cam Духовноенаследие (http://www.nasledie.ru/pers/licaro5S). Существует также еще один, не сколько странный сайт Представители российской фундаментальной науки (http://home.comset/vippages/R6G1.htm), на котором нет биогра фий, а приводятся только фамилии ученых и адреса их электронной почты (список очень ограничен, а принципы отбора достаточно стран ные). Тем не менее как отправная точка поиска этот сайт может сослу жить определенную пользу.
Очень удобны для практического использования сайты расписаний транспорта. За рубежом их можно использовать и для заказа билетов. Примером могут служить немецкий сайт http://www.bahn.de и петер бургский http://www/raspisanie.narod.ru. Есть сайты и с домашними адресами разных людей. Для Москвы и Санкт-Петербурга это h ttp // interweb.spb.m/phone. Для поискав США можно воспользоваться адре сом http://yahoo.com/search/people. Этот адрес позволяет определить и адрес электронной почты. Домашний адрес здесь бесплатно дается не полностью, а только как название населенного пункта и участок геогра фической карты с расположением соответствующего места. Сайтов по добного типа очень много и отыскать их не трудно. Найти те же сведе ния о русскоязычных изданиях можно только по подписным каталогам. Примером может служить адрес http://msp.ural.ru.Сведения о соответ ствующих ресурсах Интернета с огромным количеством адресов можно найти в http://www.invisibleweb.com, где приводится около 10 000 раз ных URL-адресов. Можно обратитьсячъкжекhttp://www.invisible-web.net или к http://www.zdenet.com/searching/directorylocation.html.Последний адрес позволяет найти справочники ресурсов для разных стран мира, в том числе и для России. Российские справочные материалы в нем, есте ственно, приводятся, если войти в адрес на русском языке.
Для начинающих (в первую очередь, для студентов) имеются специ альные информационные адреса, позволяющие ориентироваться в том Deep Web, который может интересовать эту категорию пользователей. Так, в расположенном в Беркли (США) Калифорнийском университе те имеется прекрасная справочная система, называемая Infomine (h ttp // infomine.ucr.edu). Внешний вид соответствующих сайтов этой системы приведен на рис. 10. Из анализа этого рисунка хорошо видно, что систе ма ориентирует студента в основной научной тематике, списках элект ронных журналов и каталогах библиотек университета. Если нажать кнопку Welcome Infomine, можно увидеть красивую таблицу, описываю щую все возможности Deep Web, представляемые университетом.
Поисковые системы и выполнение бытового поиска |
105 |
гического университета, называемая ПоисквИнтернет (http://edu.donрас. ru/search.html). К сожалению, этот ресурс содержит пока что только гипертекстовые адреса ведущих российских и международных поиско вых систем. И х приводится немного, но в то же время каждый адрес со провождается кратким описанием соответствующей поисковой маши ны. Хотя эти материалы большой пользы для работы с Deep Web прине сти не могут, тем не менее в целом они полезны, а прогресс в этой области идет настолько быстро, что мы не удивимся, если к моменту выхода в свет нашего пособия соответствующие материалы появятся и в России. Аналогичные справки того же типа (адреса поисковых машин с их об щими характеристиками) имеются и в других местах — например, на сайте РЫБ ( http://wwwnlr.mi8101/res/inv/ic/search.html).
В общем, можно сказать, что русскоязычный пользователь вряд ли без труда найдет много материалов по российскому Deep Web,тогда как при пользовании английским языком предварительные поиски в этой сфере могут дать много нужных результатов. Если же на этом пути ничего по лезного не найдено, следует сразу же переходить к выбору соответству ющей поисковой машины. Если поисковый запрос достаточно общий и его можно сформулировать на естественном языке, то на первом этапе поиска могут использоваться те поисковые машины, которые позволя ют делать запросы на естественном языке. Работу этих машин мы рас смотрим в следующем разделе. Если же естественный язык пользы не приносит, то надо обращаться к машинам самого широкого профиля. Чем конкретнее вопрос, тем более специализированную машину следу ет выбрать. Для конкретных четко формулируемых и строго ориенти рованных по своей области запросов, рекомендуется использовать ма шины, в которых материалы активно рецензируются модераторами. Для поиска аудио- и видеоинформаций, а также графических материа лов рекомендуется сразу же обращаться к специальным поисковым ма шины, адреса которых хорошо известны.
Поиск при запросах на естественном языке
Мы уже говорили, что запросы на естественном языке—это обыч ные вопросы, которые надо задавать поисковой машине (желательно, в самой простой форме). Большие поисковые машины ( Yandex в Рос сии, в СШ А — Alta Vista) принимают вопросы в такой форме, однако сами вопросы все же воспринимаются машинами в качестве группы ключевых слов. В этом вы легко можете убедиться сами. Имеется груп па машин (в основном англоязычных), где ответы на фразу-запрос, сде ланную на естественном языке, реализуется несколько иначе. Наиболее известной из этих машин является Askjeeves. Давайте зададим этой анг-