Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Принципы хранения и особенности хранения документов в электронных сетях

61

Эта система допускает полную русификацию и также является одним из лучших порталов для поиска в русскоязычном Интернете.

Некоторые особенности ресурсов Интернета

Многие посвященные Интернету книги и пособия начинаются с описания американских работ, начатых в 1969 г. и имевших конкрет­ ные оборонные цели. Постепенно эта система трансформировалась в охватившую весь мир глобальную информационную сеть. Такой под­ ход к истории Интернета в общем верен, хотя при этом упускаются из вида другие работы по практической реализации централизованных информационных систем. В конечном итоге, передача сигналов точно­ го времени — это тоже некий прообраз всемирной информационной службы. Нам, однако, интересен иной момент. При возникновении Ин­ тернета вся эта система создавалась без какого-либо первоначального плана, и добавления к ней делались почти всегда независимо друг от друга. В результате сеть Интернета не имеет четко выраженной иерар­ хической структуры, хотя элементы иерархичности в Интернете, бе­ зусловно, имеются. В этом плане достаточно сослаться на структуру URL-адресов. Для Интернета более характерен так называемый пози­ ционный принцип расположения его объектов — в этом случае одинако­ вые объекты могут играть разную роль в зависимости от той схемы (или точки сети), где они находятся, и поэтому выделить доминирую­ щее и управляющее звенья иногда просто невозможно. В то же время Интернет не является чисто мозаичной структурой, в которой все эле­ менты равнозначны и могут независимо связываться непосредственно друг с другом. Такие смешанные структуры в теории многообразий принято называть сетевыми структурами. Происхождение этого тер­ мина не имеет непосредственной связи с Интернетом — здесь присут­ ствует чисто случайное терминологическое совпадение. Сама же оппо­ зиция «сетевые связи — иерархические системы» в общем неразрывна. Элементы сетевых связей есть в иерархических системах, и, наоборот, в сетевых системах, в частности в Интернете, имеются элементы иерар­ хичности.

В результате наличия в Интернете сетевой структуры организации и его демократизма (об этом см. ниже) получилось так, что практически каждый желающий может разместить свой ресурс в сети, не спрашивая ни у кого разрешения и не согласовывая содержание ресурса с уже имею­ щимися или планирующимися к введению в Интернет ресурсами. Со­ держание одних ресурсов может находиться в противоречии с содержа­ нием других ресурсов. Эту особенность часто называют демократизмом Интернета, о котором пишут преимущественно с восторгом. В то же

6 2

Глава 2

время эта особенность всемирной информационной сети связана и с оп­ ределенными издержками. Сегодня влияние этих издержек настолько возросло, что в настоящее время им стали уделять серьезное внимание. Во всяком случае, борьба с распространением криминальных, порног­ рафических материалов, террористических призывов начала проводить­ ся в последние годы с некоторым успехом, однако она не затрагивает основных принципов организации размещения ресурсов в Интернете. Упомянутые нами экстремальные ситуации на самом деле не соприка­ саются с поисковыми проблемами, описываемыми в данном пособии. Сама структура расположения ресурсов в Интернете может заметно влиять на качество ресурсов и на другие их характеристики. Именно по этой причине в этом разделе нам необходимо сказать несколько слов и о структуре сети в целом.

Отсутствие единого плана построения Интернета приводит к тому, что многие ресурсы в своем содержании полностью или частично по­ вторяют друг друга. Иногда это делают специально, создавая повто­ ряющиеся наборы ресурсов, так называемые зеркала, однако гораздо чаще дублирование возникает самопроизвольно и содержание соответ­ ствующих дублирующихся ресурсов никак не согласовывается между собой. Никто за таким согласованием по-настоящему не следит. Отме­ тим и то, что ко многим ресурсам можно попасть разными путями, что не всегда плохо. В результате описать все возможные пути выхода к тому или иному типу ресурсов бывает иногда просто невозможно из-за многочисленности этих путей, и поэтому далее мы сможем осветить только принципы поиска и привести типичные поисковые примеры. С равным успехом можно привести другие примеры того же поиска и указать на другие пути выхода к тому или иному типу ресурсов.

В XIX в. многие серьезные научные журналы писали на своих об ­ ложках: «Редакция не несет ответственности за содержание публику­ емых материалов». Сейчас эти времена давно позади. Все серьезные издания жестко контролируют содержание публикуемых статей. Чем серьезнее и престижнее журнал или сборник трудов, тем более строг контроль за содержанием публикуемых в таком издании материалов. Естественно, такой подход сопряжен с известными издержками. М ож ­ но привести примеры, когда в результате жесткого рецензирования от­ метались принципиально интересные материалы, отличающиеся, на­ пример, нестандартным подходом к рассматриваемым проблемам. Тем не менее мы все привыкли к тому, что любой публикуемый в научной печати и в газетах материал, как и материалы основных электронных СМИ, гарантируют некоторый уровень качества публикуемого содер­ жания. Кстати сказать, любой опытный автор знает, что рецензирова­ ние материалов перед публикацией, позволяющее взглянуть на содер­

Принципы хранения и особенности хранения документов в электронных сетях

63

жание будущ его документа как бы со стороны, обычно приносит не­ сомненную пользу. В последние годы в России упростились вопросы публикации книг и ряда других материалов, в результате чего ослабло и внимание к рецензированию. Тем не менее определенные гарантии качества материалов большинства документов на традиционных носи­ телях сохраняются.

Приводимые в Интернете ресурсы контролируются далеко не все­ гда. В Интернете существуют информационные системы, каталоги, электронные издания, библиотеки и архивы с предварительным ре­ цензированием и отбором материалов каждого размещаемого ресурса. К сожалению, не всегда можно определить, где и с какой степенью на­ дежности проводится такое рецензирование и выполняется ли предва­ рительный отбор размещаемых ресурсов. Имеется серьезное оправда­ ние тому, что многие ресурсы практически не контролируются — поток новых материалов так велик, что зачастую внимательно ознакомиться со всеми вновь поступающими ресурсами слишком дорого, а подчас и физически невозможно. Кроме того, существуют и принципиальные соображения, которые приводят к весьма свободному размещению новых ресурсов в хранилищах электронной информации. Некоторые поисковые системы (в частности наш русскоязычный Рамблер) иног­ да сообщают о том, что никакой ответственности за содержание ресур­ са они не несут, но такие щепетильные сообщения, в общем, редки. Мы не собираемся давать оценку того, хороша или же плоха подобная си­ туация. Важно то, что она реально существует.

Указанное отсутствие контроля за содержанием характерно только для Интернета, и многих других составляющих систем электронной информации сказанное не касается. Это обстоятельство приводит к тому, что некоторые авторы незавершенных, отвергнутых или спорных работ стремятся разместить их прежде всего в Интернете. Можно при­ вести много примеров подобного рода материалов. Пользователь даже с не очень большим опытом работы довольно быстро сумеет разобрать­ ся в спорности содержания ряда ресурсов, но отсутствие контроля и рецензирования сказывается на надежности и полноте многих отнюдь не спорных материалов. Поясним это примерами. В последние годы опубликовано большое количество различных романов, повестей

ирассказов, в той или иной мере связанных с российской историей. Во многих из них упоминаются различные воинские и статские чины и звания. В связи с этим у многих любознательных читателей возник не­ поддельный интерес к вопросам званий, титулований и соотношения классных чинов гражданской и военной служб, придворного ведомства

ит. п. в царской России. Почти все слышали, что по-настоящему оз­ накомиться с этими вопросами, можно с помощью Табели о рангах.

64 Глава 2

Со времени Петра I до 1917 г. этот документ несколько раз видоизме­ нялся и переписывался, так что естественно попробовать найти нужные ответы путем сетевого поиска. При поиске в Интернете можно очень быстро найти ответы на все интересующие вопросы, связанные в нашем случае с Табелью о рангах, однако (и этот пример очень пока­ зателен) найденные материалы будут обладать определенными дефек­ тами. Итак, проанализируем типичные поисковые ситуации.

Поиск по ключевым словам Табель о рангах проще всего начать с электронных энциклопедий. В любой из них сразу же находится год появления Табели (1724), некоторые общие ее положения и ряд при­ меров. Таблицу же с перечислением всех званий и их соответствия по видам службы ни в электронных, ни, кстати, в традиционных печат­ ных энциклопедиях последнего времени найти практически невоз­ можно. Поиск в РУНЕТе оказывается успешным. Во всяком случае авторы без всякого труда находили ссылки на адреса со всеми инте­ ресующими их материалами в основных русскоязычных поисковых системах Яндексе и Рамблере. В обеих упомянутых нами поисковых системах мы одновременно находили ссылки на одни и те ж е важней­ шие ресурсы по теме, хотя в ссылках на второстепенные ресурсы была заметная разница. Все это говорит о достаточной надежности и пер­ спективности такого рода поиска.

Как же можно охарактеризовать получаемые при таком поиске ре­ зультаты? Если в поисковом запросе не делать строгих ограничений, то в ответах, как обычно, будет много случайных адресов, таких, на­ пример, как адреса, где говорится о табели о рангах спортсменов или каких-либо фирм. Эти ресурсы легко отсекаются любым пользовате­ лем, и особого вреда их появление в ответе на поисковый запрос не приносит. Это обычный «информационный шум», количество которо­ го во многом определяется качеством сделанного поискового запроса. В то ж е время в находимых URL-адресах могут присутствовать и инте­ ресные материалы по смежным темам. Так, мы нашли интересный мате­ риал (который тоже имел название Табель о рангах, то есть полностью отвечал поисковому запросу), где сравнивались ученые степени и науч­ ные звания в российских и американских университетах. Увы, автор ре­ сурса был знаком с вопросом не очень глубоко. Консультации с нашими американским коллегами подтвердили, что содержание ресурса во мно­ гом ошибочно, но как это определить, если пользователь с вопросом не знаком? По основной же теме поиска, как мы уже говорили, легко об­ наруживаются многие интересные и полезные материалы. К сожале­ нию, авторы этих материалов описывают только то, что интересует их лично. В одном случае даются только воинские звания, которые срав­ ниваются со званиями в немецкой армии (включая войска СС), в дру-

Принципы хранения и особенности хранения документов в электронных сетях

65

гом — приводятся очень интересные сведения о воинских званиях до­ петровской эпохи (но в тексте опущены придворные звания). Этот пе­ речень можно продолжить.

В ряде ресурсов есть много интересных и нужных материалов, но ав­ торы нигде не обеспечивают полноты сведений. Так, нигде в ресурсах РУНЕТа нам не удалось найти сведений о званиях горных инженеров, хотя их легко можно найти в журнале «Родина» за 2001 г. Короче говоря, если пользователь предварительно не подготовлен (что бывает довольно часто), он может получить непроверенные или неполные данные. Поэто­ му предпочтительнее производить поиск в системах, где ответы заранее готовятся специальной экспертной группой, о чем будет идти речь да­ лее. Очень жаль, но такое возможно не всегда, и главный вывод, кото­ рый следует сделать, — проверять содержание найденныхресурсов при широком поиске в Интернете необходимо, по возможности, сравнением независимо найденныхресурсов. В то же время быстрота и многие дру­ гие удобства широкого поиска столь очевидны, что отказываться от него из-за указанных недостатков не следует. Рекомендуется также помнить, что от оценки достоверности и надежности нельзя отказываться и при нахождении материалов традиционными способами и даже в тех поис­ ковых системах, где хранимые ресурсы предварительно реферируются. В последнем случае, однако, проблема столь остро не стоит.

Посещающий публичную или специализированную библиотеку че­ ловек обычно даже не задумывается об источниках финансирования работы этой библиотеки. В то же время даже поверхностный анализ показывает, как много средств необходимо для ее работы. Это же спра­ ведливо и для электронных хранилищ информации, а также для раз­ личного рода поисковых систем. Их работа требует денег, причем дос­ таточно больших. В отличие от традиционных хранилищ информации электронные базы данных и поисковые системы в своей работе по срав­ нению с традиционными хранилищами информации намного более широко используют негосударственные источники финансирования. Это не только спонсорские деньги, роль которых в обеспечении суще­ ствования электронных средств хранения и поиска информации очень велика. Электронные системы намного чаще, чем обычные системы хранения документации, являются платными и широко используют для поддержания своего существования различного рода рекламу. Н е надо глубоко вдаваться в существо проблемы, чтобы понять, как велика роль инвестиций и частной инициативы в обеспечении функ­ ционирования систем сетевой информации.

Рядовой пользователь обычно не соприкасается с вопросами финан­ сирования сетевых систем. Единственная область, где обычный пользо­ ватель повседневно сталкивается с вопросами финансового обеспече­

66

Глава 2

ния работы электронных сетей — это реклама, с которой он встречает­ ся независимо от своей воли, обращаясь к поисковым системам. Тем не менее влияние финансирования на характер ресурсов электронных сетей и, в первую очередь, ресурсов Интернета в неявном виде прояв­ ляется достаточно широко. Дело в том, что огромное количество ре­ сурсов просто невозможно постоянно сохранять, и кое-что из накоп­ ленного периодически уничтожается. Многие хранилища ресурсов, существующие на частные средства, просто исчезают. При этом безвоз­ вратно исчезает и накопленный в них материал. Безусловно, традици­ онные носители информации тоже гибнут, а многие копии традицион­ ных документов ветшают или же просто уничтожаются. Тем не менее, практически любой автор того или иного труда уверен, что статья в жур­ нале или книга всегда сохранятся в одной-двух библиотеках и поэтому при тщательном поиске смогут быть найдены. В отношении электрон­ ных ресурсов Интернета такой уверенности нет. Правильнее сказать, что одна часть этих ресурсов заведомо сохранится в наиболее надежных хранилищах, стабильно финансируемых государством. Наоборот, име­ ются хранилища электронной информации, про которые с увереннос­ тью можно сказать, что они временные.

Тем не менее огромная часть хранилищ не может быть заведомо от­ несена к этим двум крайним категориям. По существу, ничего страш­ ного в этом нет, но следует учитывать, что наиболее интересные и принципиальные результаты пока что все же стремятся расположить на традиционных носителях информации. Электронные сети при этом используются только как быстрый и надежный способ поиска такой информации. В то же время другая часть ресурсов электронных хра­ нилищ постоянно изменяется, обновляется и даже исчезает. Поэтому иногда ссылки на тот или иной ресурс со временем просто теряют свой смысл. С этим обстоятельством приходится считаться при серьезной работе с сетевой информацией.

Таким образом, можно сказать, что особенностью ресурсов И нтер­ нета является отсутствие серьезной их систематизации, независимость

иповторяемость информации, содержащейся во многих ресурсах,

атакже более жесткая (по сравнению с обычной работой с документа­ ми) необходимость проверки полноты и надежности находимых све­ дений. При этом огромным преимуществом Интернета является опе­ ративность работы, которая проявляется в возможности быстрого изучения огромных массивов данных и быстроте включения в оборот новых ресурсов. В то же время особенностью многих ресурсов Интер­ нета является их нестабильность, заставляющая более тщательно и ос­ торожно относиться к найденным материалам и, главное, к возможным ссылкам на них.

ГЛАВА 3

ОРГАНИЗАЦИЯ ПОИСКА ДОКУМЕНТОВ И РЕСУРСОВ

/Поисковый запрос и схема его исполнения

^Чтобы найти нужный документ или электронный ресурс, пользо­ ватель должен четко представлять, что он ищет. Полностью самостоя­ тельно получить нужный ему материал он может только в исключи­ тельных случаях. Даже четко представляя себе название, например, книги или URL-pecypca, пользователь при его поиске обычно обраща­ ется к посреднику. Это может быть физическое лицо, скажем библио­ текарь, или же некая автоматизированная поисковая система, которая реализует автоматический поиск ресурса (АПР), как в подавляющем

большинстве случаев и бывает при обращении к сетевым системам. В любом случае для обращения к физическому лицу или к автоматизи­ рованному посреднику пользователь должен по возможности четко сформулировать так называемый поисковый запрос. При работе с фи­ зическим посредником последний может уточнить содержание запро­ са, если ему что-либо непонятно. Поскольку далеко не всегда запрос может быть сформулирован очень строго, беседа с посредником, помо­ гающая пользователю уяснить для себя требования к запросу, может оказаться очень полезной стадией процесса поиска нужной информа­ ции. Не случайно во многих крупных библиотеках имеются специаль­ ные библиографы-консультанты, задачей которых является помощь пользователю в формулировке его конкретных запросов. При обраще­ нии к АПР также возможны некоторые консультации со специалиста­ ми, и чаще всего такие консультации бывают дистанционными. Тем не менее при работе с АПР пользователь обычно оказывается наедине с самим собой. В этой ситуации требования к качеству оформления зап­ роса существенно возрастают. В сетевом поиске основой всей работы является использование АПР. Именно о таких вариантах поиска мы и будем говорить далее.

Вобобщенном виде схема поиска ресурса или документа сводится

ксхеме, приведенной на рис. 6. Из этой схемы видно, что пользователь формулирует (естественно, на формализованном машинном языке) поисковый запрос. Этот запрос вводится, а чаще всего пересылается

впоисковую систему АПР. Система на основании этого запроса про­ изводит поиск ресурса или документа в базах данных — БД. Это мо­ жет быть некая определенная база данных, которая иногда жестко связана с конкретной АПР, однако во многих случаях поиск произво­ дится по целой группе разных баз данных. На основе алгоритма поис­ ка (в разных АП Р он бывает разным) и в соответствии с поисковым запросом АП Р отыскивает группу документов и ресурсов, которые

Организация поиска документов и ресурсов

69

отвечают условиям запроса. Сведения об этих ресурсах (точнее, их URL-адреса) пересылаются пользователю. Обычно наряду с адресом ресурса пересылается и минимальная информация о нем, которая позволяет в той или иной степени оценить реальное содержание най­ денного с помощью АПР ресурса. На этом основании можно хотя бы приблизительно оценить соответствие предлагаемого АПР ресурса поисковому запросу. Полная же оценка степени соответствия ресур­ са запросу может быть сделана только после непосредственного зна­ комства пользователя с содержанием ресурса, для чего следует вос­ пользоваться предлагаемым URL-адресом и ознакомиться с ресурсом полностью.

Такая схема возможна только при работе с чисто электронными ре­ сурсами, но бывает, однако, что АПР дает некие общие сведения о кни­ ге, статье или ином материале, указывая, кроме того, места их реального хранения. В этом случае настоящее знакомство с содержанием найден­ ного с помощью АПР ресурса или документа затягивается, а иногда и заметно осложняется. Не следует думать, что эта сложность присуща только сетевому поиску. Она в той же самой степени характерна и для классических методов поиска документов на традиционных но­ сителях. Нередко в результате поиска возникает необходимость уточ­ нения запроса с последующим его повторением и новым анализом ре­ зультатов повторного поиска. Строго сформулировать поисковые требования — задача очень непростая. Конечно, с опытом ситуация упрощается, но не следует полагать, что пользователи с большим опытом не нуждаются в уточнении своих поисковых запросов. Ско­ рее наоборот, их опыт проявляется именно в умении быстро уточнять и заново формулировать свой запрос в соответствии с получаемыми результатами.

Прежде чем переходить к дальнейшему, сделаем небольшое уточне­ ние. При обсуждении работы АПР зачастую наряду с термином база данных встречается и термин банк данных. Основная разница между этими понятиями состоит в том, что базы данных — это толькоресур­ сы, а банки данных включают в себя и определенные поисковые про­ граммные средства. Благодаря этому банки данных могут состоять из

| Пользователь |— Запрос -►|а ПР|— Поискт -> | Базы-данных |

Т Т

I---------------------------Ответ----------------------------1

РИС. 6. Схема автоматизированного поиска ресурса

70

Глава 3

нескольких отдельных баз данных. С точки зрения рядового пользова­ теля различия между структурами банка данных и базы данных не су­ щественны, и поэтому в дальнейшем мы позволим себе некоторое уп ­ рощение. Говоря БД, мы будем иметь в виду и базы, и банки данных одновременно. Это терминологическое упрощение не вызовет ника­ ких ошибок.

Итак, схема поиска, изображенная на рис. 6, является основной для работы АПР, но нам необходимо еще выяснить следующие вопросы:

Какие типы поиска существуют?

Какие характеристики ресурса и документа используются при формулировке поискового запроса?

В каком виде выдается ответ на поисковый запрос?

Как можно оценить эффективность выполненного поиска и ка­ кие критерии для этой цели используются?

Вследующих разделах мы последовательно ответим на эти вопросы.

Типы поиска, которые используются в практической работе

Разным пользователям информация нужна в разной мере. Су­ ществует очень большая группа активных пользователей, которые нуждаются в том, что условно можно назвать «бытовой» или «люби­ тельской информацией». Это могут быть сведения о погоде, расписа­ ния движения самолетов, сведения о результатах спортивных состяза­ ний, текущие политические новости и многое другое — нет нужды перечислять все типы возможных вопросов этого типа. Отличитель­ ной чертой бытовой информации является отсутствие требования глу­ бины освещения вопроса и обоснования приводимых данных, которые так важны для большинства типов профессионально ориентированных ресурсов. Это не значит, что такая информация плоха по своему каче­ ству. Просто по своей направленности она иная (если сравнивать ее с профессионально ориентированной информацией). Она не лучше и не хуже профессионально ориентированной информации, она просто другая. Даже самый высоко квалифицированный специалист, круп­ ный ученый или опытный инженер в своей обыденной жизни вынуж­ дены широко использовать бытовой поиск. В этом смысле все пользо­ ватели равны7й все они постоянно встречаются с описываемым типом поиска.

Остальные типы поиска — это решение поисковых задач, которые в большей или в меньшей степени являются профессионально ориенти­