книги / Сетевой информационный поиск
..pdfПоисковые системы и выполнение бытового поиска |
123 |
ратуре можно найти специально смоделированные случаи, где таких разночтений заведомо нет.
Строго учесть такие вещи невозможно. Сами же порядки величин и соотношения, когда число ресурсов для двух терминов больше, чем для каждого в отдельности, вполне разумны. Оператор или очень удобно ис пользовать при поиске по техническим терминам с использованием ан глийского языка. Как известно, многие из них в Англии и США пишут ся по-разному. Например, железные дороги — и railroads, и railways.
Грузовик обозначают и как lorry, и как truck. Этот список примеров лег ко продолжить. При поиске по таким терминам оператор или бывает просто незаменим.
Еще одним очень важным понятием алгебры логических операций является оператор отрицания не. Он обозначается одним из следующих способов:
по не - ! (иногда).
Кроме того, в некоторых поисковых системах (например, вAlta Vista) с этой же целью используется двойной оператор and not ( применяется иногда).
Оператор отрицания, то есть « -» , означает поиск ресурсов, которые не содержат термин, стоящий за знаком логического отрицания. Так, в ходе поиска трамвай — троллейбус находятся все ресурсы, где есть сло во трамвай, но нет слова троллейбус (это соответствует нижней части рис. 16, где заштрихована только левая часть круга трамвай до области пересечения). Поиск по такому запросу в Рамблер в упомянутых выше условиях дал нам адреса 2721 ресурсов, отвечающих этому условию. Опять-таки, здесь только приблизительная точность, ибо 2721 несколь ко больше, чем 10 504 - 8558 = 1946. Причины не точного совпадения те же, что и в предыдущем примере.
Перечисленные три основные операции практически исчерпывают основные требования, которые встречаются в простых запросах. Поми мо них, однако, используются и некоторые другие — так, например, в поисковой машине A/ta Vista используется оператор рядом:
near ~ (используется очень редко) / (используется в некоторых известных поисковых машинах).
Эти операторы ограничивают расстояние между словами и анало гичны более сложным операторам междусловных расстояний, описан ным в предыдущем разделе. Отнесение их к операциям булевой алгеб ры весьма условно. Так, в поисковой машине Alta Vista оператор near ограничивает поиск на расстояниях в 10 слов. Поиск с учетом рассто яния между словами по-английски называется Adjacency Searching и поэтому при работе с некоторыми профессиональными БД иногда
124 Глава 4
можно встретить оператор ADJ, который запускает поиск только по двум соседним словам.
Довольно часто приходится строить более сложные запросы, кото рые включают в себя несколько логических операторов. Простейший пример — несколько логических и, скажем, трамвай+троллейбус+ +метро. Здесь все понятно: по такому запросу производится поиск тех ресурсов, где все три ключевых слова встречаются одновременно. Более сложные запросы могут включать в себя несколько типов операторов. Соответствующие выражения-запросы часто называют уравнениями булевой алгебры. Для выполнения (решения) таких уравнений необхо димо знать, какие операторы должны выполняться раньше, а какие — позже. Иными словами, необходимо установить приоритет в последо вательности выполнения операторов. Так, например, в поисковой ма шине Alta Vista операторы выполняются в следующем порядке: near, not, and, or. Фактически в той же последовательности (за исключением от сутствующего обычно оператора near), поддерживается последователь ность выполнения операторов и на других поисковых машинах. В об щем, такая последовательность выполнения не всегда удобна. Например, запрос трамвай\троллейбус+новые выдаст пользователю ресурсы, ко торые содержат слова или же трамвай, или же новый троллейбус. Более естественно искать такой ответ, чтобы в нем содержались и слова новый троллейбус, и слова новый трамвай. Говоря иначе, нужно уметь влиять на последовательность выполнения операторов. Как это делается, хоро шо известно из элементарной алгебры (круглые скобки). Они также являются оператором запроса: ( ).
Таким образом, если мы зададим запрос в форме: ( трамвай\трол- лейбус)+новый, то мы получим в ответе желаемый результат. Скобки широко применяются в поисковых запросах. На английском языке при ем их использования называется Nesting (от англ. Nest — гнездо). При желании это можно обозначить русским словом группировка, однако
врусскоязычном Интернете предпочитают просто говорить скобки. Строго говоря, применение скобок — это последний из приемов ал
гебры логических операций, применяемых для построения запросов. Конечно, типы поисковых запросов можно заметно усовершенство вать. Для этого часть выражений в поисковом уравнении надо умно жить на некоторые коэффициенты, называемые весовыми множителя ми. В этом случае мы будем влиять на порядок расположения найденных ресурсов в ответе. Такую возможность представляет, например, рус скоязычная поисковая машина Яндех. Эффективное использование этого приема требует большого опыта работы, и поэтому мы не реко мендуем начинать свой практический опыт с его изучения.
Поисковые системы и выполнение бытового поиска |
125 |
Уравнения алгебры логических операций очень удобны и получили серьезное развитие при специализированных видах поиска в професси онально ориентированных БД. При поиске по базам данных широко ис пользуются операторы более сложные, чем только что описанные. Они называются Proximity Operators. С некоторыми допущениями этот тер мин можно перевести как операторы близости. Смысл в такого рода переводе понятен — операторы данного класса позволяют задавать по иск близких по структуре или же смыслу слов, однако в русском языке установившегося термина для обозначения операторов этого класса просто нет и мы не собираемся его предлагать. Отметим только, что Proximity Operators более сложны и разнообразны, чем только что опи санные операторы простейшей алгебры логических операций. Для раз ных БД применяются и разные Proximity Operators. Пользование спе циализированными БД обычно начинается тогда, когда пользователь уже хорошо освоил обычные приемы поиска информации в электрон ных сетях, а его поисковые интересы настолько определены, что нуж ные БД им уже выявлены. По этой причине разные варианты Proximity Operators мы описывать не будем. Интересующиеся могут для озна комления с этими операторами обратиться к http://www.lib.usf.edu/ - torrence/tmnc.html, а также же задать соответствующий вопрос ма шине Ash Jeeves или ей подобной. В общем, найти соответствующие материалы в Интернете не очень сложно, следует только учитывать, что пользование многими серьезными БД платное, в связи с чем знакомить ся с Proximity Operators разумно тогда, когда имеется возможность уда ленного доступа к соответствующей БД.
Поиск данных в определенных зонах ресурса
и элементах его адреса
Описанные в данном разделе приемы обычно используются тог да, когда основные поисковые навыки уже освоены. Поэтому при пер вом знакомстве этот раздел можно читать не очень углубленно.
Каждый электронный ресурс характеризуется рядом описательных элементов. Это и специальные, не видимые при чтении, ключевые сло ва, заголовки, тексты, резюме и т. д. Такие области называют зонами и элементами. Достаточно часто при запросе можно предполагать, что нужная информация о ресурсе находится в определенной его зоне. Например, иногда можно интересоваться ресурсами, где ключевое слово содержится в заголовке. Поисковые машины позволяют учесть
взапросе те или иные зоны ресурса и тем самым упростить поиск,
атакже и избавиться при этом от избыточной информации в тексте ответа.
126 |
Глава 4 |
Одним из широко принятых вариантов поиска является поиск, ког да слово, которое упоминается в запросе, ищется только в заголовке — Title. Запрос пишется с использованием операторов:
title—( ) t - ( ) заг=( ) з= ( ).
Русскоязычные варианты этих операторов используются редко. После оператора запроса в скобках ставится отыскиваемое слово или несколько отыскиваемых слов. Пример запроса t = ( m p a M e a u ) . В этом
случае отыскиваются ресурсы, в заголовке которых имеется слово трамвай. В нашем проверочном примере ответ на такой запрос дал 4 адреса. Это означает, что из 10 504 ресурсов с этим словом оно только 4 раза использовалось в заголовках. Может оказаться интересным ис ключить заголовки и отыскивать нужное слов только в тексте. В этом случае операторы имеют вид:
text=( ) х= ( ) текст=( ) т=( ).
Применение скобок здесь и далее — такое же, как и в предыдущем примере. Синтаксис, то есть запись таких запросов, единообразны только в пределах одной и той же поисковой машины. Мы привели пример синтаксиса Апорт. В другой русскоязычной поисковой маши не Яндекс рекомендуемый синтаксис будет иметь вид:
c$ title( ) ’ «$text( ) ’.
Если поисковое слово одно, то его можно писать без помещения в скобки. В часто используемой англоязычной поисковой машине Alta Vista синтаксис тех же самых запросов иной:
title:
text:
Поисковое слово ставится сразу ж е после двоеточия.
Остальные части текста иногда называются элементами. Принцип поиска по элементам практически тот же, что и в случае поиска по зо нам, однако в некоторых машинах, например в Яндекс, синтаксис зап роса меняется. В этой машине при поиске по элементам символ «$» заменяется на «#». В остальном синтаксис остается тем же, что и при поиске по зонам. В подавляющем большинстве других поисковых ма шин синтаксис для запроса по зонам и запросам по элементам остается неизменным. В этом случае (например, у Апорт), термины зона и эле мент заменяются единым термином поле. Все эти терминологические тонкости особого анализа не требуют и большого интереса не представ ляют. Остановимся теперь на тех характеристиках текста, которые отыскиваются в том, что называют зонами.
Поисковые системы и выполнение бытового поиска |
127 |
Многие ресурсы Интернета имеют в своем описании не выводимые для чтения ключевые слова. Эти слова проставляются создателями ре сурса при создании так называемого дорвея. Грубо говоря, это нечто вроде авторского описания ресурса (от англ.Door—дверь и Way — доро га). Оно, кстати, напоминает известное гейтвей (Gateway), где Gate — ворота, калитка. Термин Gateway применяется для обозначения прото кола приема-передачи данных. Описание принципов создания дорвеев выходит за рамки наших интересов, а тем, кто заинтересуется этой про блемой и вопросами о связи дорвеев с ключевыми словами, мы реко мендуем обратиться, в частности, к полезным URL-адресам русско язычного Интернета http://www.raskrutka.net/doorways1.html, а также http://www.WebmasterPro.com.ua. Если есть желание отыскать и дру гие ресурсы, посвященные этой теме, можно провести поиск по клю чевому слову дорвей с помощью любой русскоязычной поисковой ма шины.
Итак, поиск ресурсов по ключевым словам осуществляется запро сами типа:
keywords=
kw=
клсл= кл-
#keywords=( ).
Не разворачивая синтаксические выражения, отметим, что поиск с учетом других характеристик текста может проводиться с помощью операторов:
description= (при этом ищется не выводимое на экран, но имеющееся в дорвее «описание» ресурса)
anchor= (при этом слово или выражение, располагаемое в скобках, ищется в тексте тех ресурсов, на которые приводятся гиперссыл ки в том или ином ресурсе)
alt=
hint=
рис=
Р"
Все эти 5 операторов действуют одинаково — они ищут заданное слово только в подписях к рисункам, имеющихся в разных ресурсах.
#abstract= (при этом поиск производится только по резюме ресурса, которое иногда имеется только в дорвее).
12 8 |
Глава 4 |
Кроме того, есть операторы, которые позволяют отыскивать ресур сы, написанные, например, только на языкеJava-script. Возможен поиск по URL-адресам, их доменам, линкам, а также поиск изображений, но такой поиск выполняется не всеми поисковыми машинами. Есть разни ца и в синтаксисе разных машин. В тех случаях, когда тот или иной вид поиска действительно нужен, следует обратиться к описанию соответ ствующей поисковой машины.
Допускается поиск ресурсов, создание (поступление) которых по падает в определенный интервал дат. Для этого используются опера торы:
date=
date: датадата:
Как видим, и здесь может быть разница в синтаксисе. Запрос же пи шется, например, по форме: трамвай дата=01/01.98-01/02/99. По та кому запросу ищутся ресурсы, содержащие слово трамвай и введен ные в сеть в период от 1 января 1998 г. до 1 февраля 1999 г. Возможен поиск и по точной дате. Использование же оператора < позволяет про вести поиск в ресурсах, которые предшествуют определенной дате. Как видим, и здесь имеется много возможностей и вариантов для разных машин, но мы не рекомендуем углубляться в эти тонкости до того, как будут освоены базовые приемы поиска.
Вывод результатов поиска
Результаты поиска выводятся поисковой машиной на экран ком пьютера. С самого начала по умолчанию предполагается некоторая последовательность в выдаче результатов. Эту последовательность и соответствующую ей форму вывода принято называть стандартны ми, но и последовательность представления результатов, и содержа ние выводимого на экран материала можно менять. Самое простое — это изменить число описаний ресурсов, которые одновременно выво дятся на экран. При любом поиске (как на специализированных маши нах, так и в онлайновых каталогах, базах данных и т. д.) количество обнаруженных ресурсов может быть очень большим. Поэтому в таких случаях порции материала, одномоментно выводимого на экран, огра ничены — это 10, 15, 20, 25 единиц или позиций (items). Переход от одной порции информации к другой осуществляется с помощью кно пок. П о-английски они обычно обозначаются Next — «следующий» и «Previous> — 4предыдущий». Названия русскоязычных кнопок понят ны без пояснений. Количество одномоментно выводимых позиций
Поисковые системы и выполнение бытового поиска |
129 |
изменяется достаточно очевидными командами. В Рамблере, напри мер, это выдавать по и далее число одновременно выдаваемых адресов ресурсов (документов, позиций). Это число не произвольно и определя ется поисковой программой. В том же Рамблере это числа 15,30 и 50.
Все выводимые в ответе данные уже определенным образом рассор тированы. Сведения о порядке расположения ресурсов высвечивают ся на экране. Обычно по умолчанию производится группировка, назы ваемая сайты по релевантности. Мы уже говорили, что поисковая программа сама вычисляет степень релевантности, но поскольку про граммы разные, то и определения степени релевантности одних и тех же ресурсов на разных поисковых машинах будут разными. На каж дом сайте может быть одновременно найдено несколько ресурсов, ре левантных по отношению к запросу. В случае группировки сайты по релевантности информация о них выдается совместно. Если же перей ти к группировке страницы по релевантности, то все ресурсы (доку менты) с одного и того же сайта выдаются по отдельности, независимо друг от друга. Можно перейти к группировке выводимых сведений о страницах по датам поступления ресурсов. Для этого надо перейти к группировке страницы по дате (сначала новые) или же страницы по дате (сначала старые). Разница в этих группировках состоит в том, какие страницы идут вначале: новые или старые.
Некоторые поисковые машины, например уже упоминавшаяся рус скоязычная Пингвин, «подстраиваются» под пользователя. Как это де лается, мы уже описывали. В таких случаях в ответе на запрос могут выдаваться сведения только о тех ресурсах, которые появились в ка талоге машины уже после предыдущего ее посещения конкретным пользователем. В выдаче таких поисковых машин могут быть и так на зываемые «любимые ссылки», то есть те ссылки, которые наиболее ча сто запрашиваются данным пользователем.
Поисковые машины позволяют менять и форму вывода данных. Упо минавшаяся стандартная форма (она включена по умолчанию) дает обычно адрес ресурса и небольшой участок текста до и после запраши ваемого слова. При желании можно перейти к краткой форме, и при этом на экран будут выводиться только заголовки найденных ресурсов (документов). Можно перейти и к детальной форме вывода. В этом случае на экран будет выводиться возможный максимум ин формации о ресурсе. В него входят заголовок, аннотация, даты модифи кации документов, кодировка для русскоязычных документов, размер файла и т. д. Нужна ли вам такая подробная информация, следует ре шать в каждом отдельном случае. Может оказаться, что один из обнару женных при поиске ресурсов (документов) представляется вам более
130 |
Глава 4 |
отвечающим запросу (по сравнению с остальными). В этом случае ра зумно воспользоваться кнопкой найти похожие документы, если тако вая имеется. Можно поинтересоваться также теми запросами, которые делали те пользователи, которые вводили в машину тот же запрос, что и вы. Это так называемые связанные запросы. Изучение их в ряде случаев может оказаться полезным.
/ Несколько кратких замечаний по поводу
Интернет-магазинов
Все материалы этой главы посвящены не специализированному, то есть бытовому поиску. Задачи, возникающие при таком поиске, раз нообразны, но сами методы их решения настолько просты, что какихлибо специальных разделов, посвященных уточнению соответствующих деталей и анализу особенностей такого поиска, не требуется. Наше по собие все ж е посвящено поиску более серьезной, специализированной информации. Тем не менее при подготовке рукописи и в процессе ее обсуждения мы не раз слышали пожелания написать хотя бы несколько строк, которые были бы посвящены Интернет-магазинам. Интернет-ма газин — это, в конечном итоге, лишь косвенный источник информации. Тем не менее его каталоги, особенно их книжную часть, иногда можно использовать для получения сведений о вновь вышедших печатных из даниях, которые еще не включены в обычные книжные каталоги. Для этих целей можно воспользоваться каталогом любого Интернет-мага зина, продающего книги. Учитывая слабую связь этой темы с основными материалами пособия, а также учитывая то, что российский пользова тель пока что пользуется в основном лишь отечественными Интернетмагазинами, мы ограничим этот краткий дополнительный раздел приве дением ряда важнейших URL-адресов магазинов РУНЕТ. Справочник гипертекстовых адресов основных Интернет-магазинов РУНЕТ находит ся по адресу http://skill2.narod.rU/3/shopping.htm. Справки о товарах при менительно к магазинам можно отыскать по связанным между собой ад ресам: http://www.infobank.gtn. ги / ib/intershop.index.htm и http://www. referal.com.ru/ib/intershop/index. php. Справочник Интернет магазины зоны Ru находится по адресу http://allrushop.narod.ru/index.htm. Справоч ник Лучшие магазины РУНЕТа можно найти в http//bestshop.h1. сот/ index.htm. Полезный справочник, где наряду с URL-адресами Интернетмагазинов приводятся и их краткие характеристики, находится по адре су http://www.multiportal. com/intermag.