Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Поисковые системы и выполнение бытового поиска

123

ратуре можно найти специально смоделированные случаи, где таких разночтений заведомо нет.

Строго учесть такие вещи невозможно. Сами же порядки величин и соотношения, когда число ресурсов для двух терминов больше, чем для каждого в отдельности, вполне разумны. Оператор или очень удобно ис­ пользовать при поиске по техническим терминам с использованием ан­ глийского языка. Как известно, многие из них в Англии и США пишут­ ся по-разному. Например, железные дороги — и railroads, и railways.

Грузовик обозначают и как lorry, и как truck. Этот список примеров лег­ ко продолжить. При поиске по таким терминам оператор или бывает просто незаменим.

Еще одним очень важным понятием алгебры логических операций является оператор отрицания не. Он обозначается одним из следующих способов:

по не - ! (иногда).

Кроме того, в некоторых поисковых системах (например, вAlta Vista) с этой же целью используется двойной оператор and not ( применяется иногда).

Оператор отрицания, то есть « -» , означает поиск ресурсов, которые не содержат термин, стоящий за знаком логического отрицания. Так, в ходе поиска трамвай — троллейбус находятся все ресурсы, где есть сло­ во трамвай, но нет слова троллейбус (это соответствует нижней части рис. 16, где заштрихована только левая часть круга трамвай до области пересечения). Поиск по такому запросу в Рамблер в упомянутых выше условиях дал нам адреса 2721 ресурсов, отвечающих этому условию. Опять-таки, здесь только приблизительная точность, ибо 2721 несколь­ ко больше, чем 10 504 - 8558 = 1946. Причины не точного совпадения те же, что и в предыдущем примере.

Перечисленные три основные операции практически исчерпывают основные требования, которые встречаются в простых запросах. Поми­ мо них, однако, используются и некоторые другие — так, например, в поисковой машине A/ta Vista используется оператор рядом:

near ~ (используется очень редко) / (используется в некоторых известных поисковых машинах).

Эти операторы ограничивают расстояние между словами и анало­ гичны более сложным операторам междусловных расстояний, описан­ ным в предыдущем разделе. Отнесение их к операциям булевой алгеб­ ры весьма условно. Так, в поисковой машине Alta Vista оператор near ограничивает поиск на расстояниях в 10 слов. Поиск с учетом рассто­ яния между словами по-английски называется Adjacency Searching и поэтому при работе с некоторыми профессиональными БД иногда

124 Глава 4

можно встретить оператор ADJ, который запускает поиск только по двум соседним словам.

Довольно часто приходится строить более сложные запросы, кото­ рые включают в себя несколько логических операторов. Простейший пример — несколько логических и, скажем, трамвай+троллейбус+ +метро. Здесь все понятно: по такому запросу производится поиск тех ресурсов, где все три ключевых слова встречаются одновременно. Более сложные запросы могут включать в себя несколько типов операторов. Соответствующие выражения-запросы часто называют уравнениями булевой алгебры. Для выполнения (решения) таких уравнений необхо­ димо знать, какие операторы должны выполняться раньше, а какие — позже. Иными словами, необходимо установить приоритет в последо­ вательности выполнения операторов. Так, например, в поисковой ма­ шине Alta Vista операторы выполняются в следующем порядке: near, not, and, or. Фактически в той же последовательности (за исключением от­ сутствующего обычно оператора near), поддерживается последователь­ ность выполнения операторов и на других поисковых машинах. В об­ щем, такая последовательность выполнения не всегда удобна. Например, запрос трамвай\троллейбус+новые выдаст пользователю ресурсы, ко­ торые содержат слова или же трамвай, или же новый троллейбус. Более естественно искать такой ответ, чтобы в нем содержались и слова новый троллейбус, и слова новый трамвай. Говоря иначе, нужно уметь влиять на последовательность выполнения операторов. Как это делается, хоро­ шо известно из элементарной алгебры (круглые скобки). Они также являются оператором запроса: ( ).

Таким образом, если мы зададим запрос в форме: ( трамвай\трол- лейбус)+новый, то мы получим в ответе желаемый результат. Скобки широко применяются в поисковых запросах. На английском языке при­ ем их использования называется Nesting (от англ. Nest — гнездо). При желании это можно обозначить русским словом группировка, однако

врусскоязычном Интернете предпочитают просто говорить скобки. Строго говоря, применение скобок — это последний из приемов ал­

гебры логических операций, применяемых для построения запросов. Конечно, типы поисковых запросов можно заметно усовершенство­ вать. Для этого часть выражений в поисковом уравнении надо умно­ жить на некоторые коэффициенты, называемые весовыми множителя­ ми. В этом случае мы будем влиять на порядок расположения найденных ресурсов в ответе. Такую возможность представляет, например, рус­ скоязычная поисковая машина Яндех. Эффективное использование этого приема требует большого опыта работы, и поэтому мы не реко­ мендуем начинать свой практический опыт с его изучения.

Поисковые системы и выполнение бытового поиска

125

Уравнения алгебры логических операций очень удобны и получили серьезное развитие при специализированных видах поиска в професси­ онально ориентированных БД. При поиске по базам данных широко ис­ пользуются операторы более сложные, чем только что описанные. Они называются Proximity Operators. С некоторыми допущениями этот тер­ мин можно перевести как операторы близости. Смысл в такого рода переводе понятен — операторы данного класса позволяют задавать по­ иск близких по структуре или же смыслу слов, однако в русском языке установившегося термина для обозначения операторов этого класса просто нет и мы не собираемся его предлагать. Отметим только, что Proximity Operators более сложны и разнообразны, чем только что опи­ санные операторы простейшей алгебры логических операций. Для раз­ ных БД применяются и разные Proximity Operators. Пользование спе­ циализированными БД обычно начинается тогда, когда пользователь уже хорошо освоил обычные приемы поиска информации в электрон­ ных сетях, а его поисковые интересы настолько определены, что нуж­ ные БД им уже выявлены. По этой причине разные варианты Proximity Operators мы описывать не будем. Интересующиеся могут для озна­ комления с этими операторами обратиться к http://www.lib.usf.edu/ - torrence/tmnc.html, а также же задать соответствующий вопрос ма­ шине Ash Jeeves или ей подобной. В общем, найти соответствующие материалы в Интернете не очень сложно, следует только учитывать, что пользование многими серьезными БД платное, в связи с чем знакомить­ ся с Proximity Operators разумно тогда, когда имеется возможность уда­ ленного доступа к соответствующей БД.

Поиск данных в определенных зонах ресурса

и элементах его адреса

Описанные в данном разделе приемы обычно используются тог­ да, когда основные поисковые навыки уже освоены. Поэтому при пер­ вом знакомстве этот раздел можно читать не очень углубленно.

Каждый электронный ресурс характеризуется рядом описательных элементов. Это и специальные, не видимые при чтении, ключевые сло­ ва, заголовки, тексты, резюме и т. д. Такие области называют зонами и элементами. Достаточно часто при запросе можно предполагать, что нужная информация о ресурсе находится в определенной его зоне. Например, иногда можно интересоваться ресурсами, где ключевое слово содержится в заголовке. Поисковые машины позволяют учесть

взапросе те или иные зоны ресурса и тем самым упростить поиск,

атакже и избавиться при этом от избыточной информации в тексте ответа.

126

Глава 4

Одним из широко принятых вариантов поиска является поиск, ког­ да слово, которое упоминается в запросе, ищется только в заголовке — Title. Запрос пишется с использованием операторов:

title—( ) t - ( ) заг=( ) з= ( ).

Русскоязычные варианты этих операторов используются редко. После оператора запроса в скобках ставится отыскиваемое слово или несколько отыскиваемых слов. Пример запроса t = ( m p a M e a u ) . В этом

случае отыскиваются ресурсы, в заголовке которых имеется слово трамвай. В нашем проверочном примере ответ на такой запрос дал 4 адреса. Это означает, что из 10 504 ресурсов с этим словом оно только 4 раза использовалось в заголовках. Может оказаться интересным ис­ ключить заголовки и отыскивать нужное слов только в тексте. В этом случае операторы имеют вид:

text=( ) х= ( ) текст=( ) т=( ).

Применение скобок здесь и далее — такое же, как и в предыдущем примере. Синтаксис, то есть запись таких запросов, единообразны только в пределах одной и той же поисковой машины. Мы привели пример синтаксиса Апорт. В другой русскоязычной поисковой маши­ не Яндекс рекомендуемый синтаксис будет иметь вид:

c$ title( ) ’ «$text( ) ’.

Если поисковое слово одно, то его можно писать без помещения в скобки. В часто используемой англоязычной поисковой машине Alta Vista синтаксис тех же самых запросов иной:

title:

text:

Поисковое слово ставится сразу ж е после двоеточия.

Остальные части текста иногда называются элементами. Принцип поиска по элементам практически тот же, что и в случае поиска по зо­ нам, однако в некоторых машинах, например в Яндекс, синтаксис зап­ роса меняется. В этой машине при поиске по элементам символ «$» заменяется на «#». В остальном синтаксис остается тем же, что и при поиске по зонам. В подавляющем большинстве других поисковых ма­ шин синтаксис для запроса по зонам и запросам по элементам остается неизменным. В этом случае (например, у Апорт), термины зона и эле­ мент заменяются единым термином поле. Все эти терминологические тонкости особого анализа не требуют и большого интереса не представ­ ляют. Остановимся теперь на тех характеристиках текста, которые отыскиваются в том, что называют зонами.

Поисковые системы и выполнение бытового поиска

127

Многие ресурсы Интернета имеют в своем описании не выводимые для чтения ключевые слова. Эти слова проставляются создателями ре­ сурса при создании так называемого дорвея. Грубо говоря, это нечто вроде авторского описания ресурса (от англ.Door—дверь и Way — доро­ га). Оно, кстати, напоминает известное гейтвей (Gateway), где Gate — ворота, калитка. Термин Gateway применяется для обозначения прото­ кола приема-передачи данных. Описание принципов создания дорвеев выходит за рамки наших интересов, а тем, кто заинтересуется этой про­ блемой и вопросами о связи дорвеев с ключевыми словами, мы реко­ мендуем обратиться, в частности, к полезным URL-адресам русско­ язычного Интернета http://www.raskrutka.net/doorways1.html, а также http://www.WebmasterPro.com.ua. Если есть желание отыскать и дру­ гие ресурсы, посвященные этой теме, можно провести поиск по клю­ чевому слову дорвей с помощью любой русскоязычной поисковой ма­ шины.

Итак, поиск ресурсов по ключевым словам осуществляется запро­ сами типа:

keywords=

kw=

клсл= кл-

#keywords=( ).

Не разворачивая синтаксические выражения, отметим, что поиск с учетом других характеристик текста может проводиться с помощью операторов:

description= (при этом ищется не выводимое на экран, но имеющееся в дорвее «описание» ресурса)

anchor= (при этом слово или выражение, располагаемое в скобках, ищется в тексте тех ресурсов, на которые приводятся гиперссыл­ ки в том или ином ресурсе)

alt=

hint=

рис=

Р"

Все эти 5 операторов действуют одинаково — они ищут заданное слово только в подписях к рисункам, имеющихся в разных ресурсах.

#abstract= (при этом поиск производится только по резюме ресурса, которое иногда имеется только в дорвее).

12 8

Глава 4

Кроме того, есть операторы, которые позволяют отыскивать ресур­ сы, написанные, например, только на языкеJava-script. Возможен поиск по URL-адресам, их доменам, линкам, а также поиск изображений, но такой поиск выполняется не всеми поисковыми машинами. Есть разни­ ца и в синтаксисе разных машин. В тех случаях, когда тот или иной вид поиска действительно нужен, следует обратиться к описанию соответ­ ствующей поисковой машины.

Допускается поиск ресурсов, создание (поступление) которых по­ падает в определенный интервал дат. Для этого используются опера­ торы:

date=

date: датадата:

Как видим, и здесь может быть разница в синтаксисе. Запрос же пи­ шется, например, по форме: трамвай дата=01/01.98-01/02/99. По та­ кому запросу ищутся ресурсы, содержащие слово трамвай и введен­ ные в сеть в период от 1 января 1998 г. до 1 февраля 1999 г. Возможен поиск и по точной дате. Использование же оператора < позволяет про­ вести поиск в ресурсах, которые предшествуют определенной дате. Как видим, и здесь имеется много возможностей и вариантов для разных машин, но мы не рекомендуем углубляться в эти тонкости до того, как будут освоены базовые приемы поиска.

Вывод результатов поиска

Результаты поиска выводятся поисковой машиной на экран ком­ пьютера. С самого начала по умолчанию предполагается некоторая последовательность в выдаче результатов. Эту последовательность и соответствующую ей форму вывода принято называть стандартны­ ми, но и последовательность представления результатов, и содержа­ ние выводимого на экран материала можно менять. Самое простое — это изменить число описаний ресурсов, которые одновременно выво­ дятся на экран. При любом поиске (как на специализированных маши­ нах, так и в онлайновых каталогах, базах данных и т. д.) количество обнаруженных ресурсов может быть очень большим. Поэтому в таких случаях порции материала, одномоментно выводимого на экран, огра­ ничены — это 10, 15, 20, 25 единиц или позиций (items). Переход от одной порции информации к другой осуществляется с помощью кно­ пок. П о-английски они обычно обозначаются Next — «следующий» и «Previous> — 4предыдущий». Названия русскоязычных кнопок понят­ ны без пояснений. Количество одномоментно выводимых позиций

Поисковые системы и выполнение бытового поиска

129

изменяется достаточно очевидными командами. В Рамблере, напри­ мер, это выдавать по и далее число одновременно выдаваемых адресов ресурсов (документов, позиций). Это число не произвольно и определя­ ется поисковой программой. В том же Рамблере это числа 15,30 и 50.

Все выводимые в ответе данные уже определенным образом рассор­ тированы. Сведения о порядке расположения ресурсов высвечивают­ ся на экране. Обычно по умолчанию производится группировка, назы­ ваемая сайты по релевантности. Мы уже говорили, что поисковая программа сама вычисляет степень релевантности, но поскольку про­ граммы разные, то и определения степени релевантности одних и тех же ресурсов на разных поисковых машинах будут разными. На каж­ дом сайте может быть одновременно найдено несколько ресурсов, ре­ левантных по отношению к запросу. В случае группировки сайты по релевантности информация о них выдается совместно. Если же перей­ ти к группировке страницы по релевантности, то все ресурсы (доку­ менты) с одного и того же сайта выдаются по отдельности, независимо друг от друга. Можно перейти к группировке выводимых сведений о страницах по датам поступления ресурсов. Для этого надо перейти к группировке страницы по дате (сначала новые) или же страницы по дате (сначала старые). Разница в этих группировках состоит в том, какие страницы идут вначале: новые или старые.

Некоторые поисковые машины, например уже упоминавшаяся рус­ скоязычная Пингвин, «подстраиваются» под пользователя. Как это де­ лается, мы уже описывали. В таких случаях в ответе на запрос могут выдаваться сведения только о тех ресурсах, которые появились в ка­ талоге машины уже после предыдущего ее посещения конкретным пользователем. В выдаче таких поисковых машин могут быть и так на­ зываемые «любимые ссылки», то есть те ссылки, которые наиболее ча­ сто запрашиваются данным пользователем.

Поисковые машины позволяют менять и форму вывода данных. Упо­ минавшаяся стандартная форма (она включена по умолчанию) дает обычно адрес ресурса и небольшой участок текста до и после запраши­ ваемого слова. При желании можно перейти к краткой форме, и при этом на экран будут выводиться только заголовки найденных ресурсов (документов). Можно перейти и к детальной форме вывода. В этом случае на экран будет выводиться возможный максимум ин­ формации о ресурсе. В него входят заголовок, аннотация, даты модифи­ кации документов, кодировка для русскоязычных документов, размер файла и т. д. Нужна ли вам такая подробная информация, следует ре­ шать в каждом отдельном случае. Может оказаться, что один из обнару­ женных при поиске ресурсов (документов) представляется вам более

130

Глава 4

отвечающим запросу (по сравнению с остальными). В этом случае ра­ зумно воспользоваться кнопкой найти похожие документы, если тако­ вая имеется. Можно поинтересоваться также теми запросами, которые делали те пользователи, которые вводили в машину тот же запрос, что и вы. Это так называемые связанные запросы. Изучение их в ряде случаев может оказаться полезным.

/ Несколько кратких замечаний по поводу

Интернет-магазинов

Все материалы этой главы посвящены не специализированному, то есть бытовому поиску. Задачи, возникающие при таком поиске, раз­ нообразны, но сами методы их решения настолько просты, что какихлибо специальных разделов, посвященных уточнению соответствующих деталей и анализу особенностей такого поиска, не требуется. Наше по­ собие все ж е посвящено поиску более серьезной, специализированной информации. Тем не менее при подготовке рукописи и в процессе ее обсуждения мы не раз слышали пожелания написать хотя бы несколько строк, которые были бы посвящены Интернет-магазинам. Интернет-ма­ газин — это, в конечном итоге, лишь косвенный источник информации. Тем не менее его каталоги, особенно их книжную часть, иногда можно использовать для получения сведений о вновь вышедших печатных из­ даниях, которые еще не включены в обычные книжные каталоги. Для этих целей можно воспользоваться каталогом любого Интернет-мага­ зина, продающего книги. Учитывая слабую связь этой темы с основными материалами пособия, а также учитывая то, что российский пользова­ тель пока что пользуется в основном лишь отечественными Интернетмагазинами, мы ограничим этот краткий дополнительный раздел приве­ дением ряда важнейших URL-адресов магазинов РУНЕТ. Справочник гипертекстовых адресов основных Интернет-магазинов РУНЕТ находит­ ся по адресу http://skill2.narod.rU/3/shopping.htm. Справки о товарах при­ менительно к магазинам можно отыскать по связанным между собой ад­ ресам: http://www.infobank.gtn. ги / ib/intershop.index.htm и http://www. referal.com.ru/ib/intershop/index. php. Справочник Интернет магазины зоны Ru находится по адресу http://allrushop.narod.ru/index.htm. Справоч­ ник Лучшие магазины РУНЕТа можно найти в http//bestshop.h1. сот/ index.htm. Полезный справочник, где наряду с URL-адресами Интернетмагазинов приводятся и их краткие характеристики, находится по адре­ су http://www.multiportal. com/intermag.