Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Введение, посвященное полезным советам

31

В каких-либо пояснениях такая запись не нуждается.

Отметим еще, что между терминами главная и домашняя страницы есть небольшая разница. Тем не менее ею обычно пренебрегают и рас­ сматривают оба эти названия, как равнозначные. Учитывая это, мы в дальнейшем будем предпочтительно пользоваться термином главная страница без каких-либо дополнительных уточнений. В заключение раздела укажем на еще одно обстоятельство. Домены в путевых адре­ сах разделяются точкой. Эта точка не имеет грамматического смысла, а является просто разделительным знаком. В этом смысле она анало­ гична точкам и двоеточиям в хорошо знакомых библиотечным работ­ никам записям ссылок на цитированную литературу. Там эти знаки препинания имеют специальное название — УРЗ (универсальный раз­ делительный знак). В адресах Интернета точка в конце никогда не про­ ставляется — это достаточно неприятная ошибка. В то же время эти адреса часто расположены в тексте. Если такой адрес находится в сере­ дине фразы, то никаких проблем не возникает. Если же он находится в конце фразы, то после него без разрыва должна следовать точка, свя­ занная с правилами пунктуации. До настоящего времени разумного решения этой проблемы не предложено. В одних случаях пунктуаци­ онную точку ставят сразу после адреса, в других точка отделена пробе­ лом, в третьих же фразу просто оставляют без заключительной точки. Единого правила на этот счет не существует. Мы также столкнулись с этой трудностью. Выбранное нами решение очевидно читателю. Явля­ ется ли оно оптимальным, мы судить не можем.

Несколько замечаний,

/полезных в практической работе

Хотим обратить ваше внимание еще на ряд обстоятельств. Боль­ шие поисковые машины работают без перерывов. Единственная воз­ можная сложность при работе с ними — это перегруженность каналов связи. К непрерывному режиму работы быстро привыкают и считают, что такая система доступа применяется везде. На самом деле это не так. В работе небольших поисковых систем часто случаются заплани­ рованные остановки. При обращении же к онлайновыми каталогами даже самых больших библиотек надо очень внимательно следить за информацией о режиме их работы, помещаемой на главной странице. Так, каталог самой большой библиотеки мира — Библиотеки конгрес­ са СШ А два раза в день по одному часу закрыт для регламентных работ. Некоторые библиотечные каталоги просто не работают по вы­ ходным и праздничным дням, а иногда и в ночное время. Ряд уни­

32 Введение, посвященное полезным советам

верситетских библиотек закрывается для профилактики в канику­ лярное время. За всем этим надо внимательно следить и не теряться при временных перерывах в работе того или иного звена компьютер­ ных сетей.

В процессе обучения иногда приходится неоднократно обращаться по одному и тому же URL-адресу. По одному и тому же адресу много­ кратно обращаются и при постоянном чтении новостных сайтов. Как известно, броузер резервирует на винчестере компьютера специальную область, называемую «временной» или кэш-памятыо, где хранятся те программы, к которым часто обращается пользователь или те файлы, к которым он обращался недавно. Поэтому при частом обращении к новостным и учебным сайтам на экран иногда выводится информация, которая была сохранена кэш-памятью от предыдущего обращения, то есть «старая версия» информации. Если вы замечаете или подозревае­ те, что столкнулись с таким явлением, то при появлении подозри­ тельного по новизне файла нажмите кнопку Обновление {Refresh). Можно даже сделать более «жесткое обновление», а именно нажать клавишу F5 или же сочетать команду Обновление с нажатием клави­ ши Control (при пользовании Internet Explorer) или ж е клавиши Shift Netscape Communicator). Это весьма полезный прием, однако зло­ употреблять им все же не следует.

Сделаем еще одно замечание. При знакомстве с методами поиска сетевой информации поневоле приходится сталкиваться с незнакомой терминологией. Авторы этого пособия стремятся не злоупотреблять новыми терминами и объяснять их при первой встрече с ними в тексте. Тем не менее не только практическая поисковая работа, но и простые упражнения поневоле столкнут вас с незнакомыми выражениями. Они будут не всегда понятны. Новая терминология будет относится к двум темам: чисто компьютерные термины и библиотечные термины. Могут встретиться трудности и при встрече с такими ж е терминами в иноязычных поисковых системах. С новой терминологией чаще всего вам придется встретиться сидя за компьютером. Поэтому и разъясне­ ния ее лучше всего искать в компьютерных базах данных. Есть множ е­ ство URL-адресов, посвященных компьютерной терминологии. К со­ жалению, вход в соответствующие ресурсы часто осуществляется с перебоями. На русском языке объяснения компьютерных терминов можно найти по адресам: http://whaits.textarget.com и http://www.pcchainik.mft.spb.ru/dict.htm. Большинство компьютерных терминов при­ шло к нам из английского языка. Они часто представляют собой анг­ лоязычные аббревиатуры (abbreviations, acronymes). Поэтому списки компьютерных терминов даже в русскоязычных файлах обычно при-

Введение, посвященное полезным советам

33

водятся в порядке английского алфавита. При этом кратких объяснений термина оказывается вполне достаточно для понимания его смысла. Краткость объяснений и английская терминология позволяют восполь­ зоваться для этих же. целей и англоязычными ресурсами. Их имеется великое множество. Приведем для примера только ряд URL-адресов:

http://www.ionstrom.com/glossary/

http://www.web.webworld.co.uk/web/info/jargon.htm

http://wwwstate.vt.us/inthelp.htm

http//members.tripod.co.uk/sixfour/bobjude/tutor/abbr/f.html.

При желании можно, используя несложные поисковые приемы, найти еще много англоязычных ресурсов, посвященных терминологии. Искать их надо, используя для поиска английские термины: jargon, glossary, dictionary. В то же время в настоящее время появились русскоязычные разъяснения необходимых терминов, расположенные в списках в соот­ ветствии с русским описанием и русским алфавитом. Словарь подобно­ го рода можно найти в поисковой системе Апорт: http://www.aport.ru. Чтобы найти этот словарь, с главной страницы поискового портала надо пройти следующим образом:

Навигатор > Образование > Основные понятия и определения интернетики.

При этом правомерность введения термина интернетика полнос­ тью лежит на совести авторов словаря. К этому же словарю можно про­ сто добраться, используя линк: http://rol.ru/files/dict/intemet.

В отношении библиотечной терминологии ситуация иная. Имеет­ ся много прекрасных русскоязычных печатных пособий и учебников, хорошо освещающих эту тему. Сведения о них можно легко найти как в традиционных библиотечных каталогах, так и в Интернете. Тем не менее русскоязычных электронных ресурсов, посвященных разъясне­ нию этой тематики, авторы данного пособия не знают. Надо полагать, что понимание этой терминологии в общем должно прийти к вам без особых затруднений. Сложнее обстоит дело с пониманием и нахож­ дением соответствующих иноязычных терминов. В отношении чисто компьютерной терминологии эта проблема остро не стоит. Наиболее важные компьютерные и сетевые термины звучат очень похоже по­ чти на всех языках. Поэтому и трудностей на этом поле почти не возникает. С библиотечной тематикой вопрос намного более сложен, и приходится пользоваться словарями. Мы полагаем, что освоить при необходимости несколько важнейших англоязычных библиотечных терминов особого труда не составит, однако иногда приходится пользо­

34

Введение, посвященное полезным советам

ваться и поисковыми системами других стран. Здесь проблемы понима­ ния библиотечных терминов стоят остро даже для профессиональных библиотечных работников.

Действительно, переход к новому языку часто неоднозначен. Так, один из самых распространенных в практике библиотечного и сетево­ го поиска термин ключевое слово (по-английски keyword) имеет три аналога на немецком языке. Разобраться в тонкости различий этих немецких терминов не просто. Для помощи в решении этой пробле­ мы в Интернете имеются многоязычные списки, сопоставляющие библиотечные термины. К сожалению, нам не известны списки, в ко­ торых бы учитывалась и русская библиотечная терминология. Поэто­ му если необходимость в таких сопоставлениях возникнет, что очень маловероятно на этапе освоения поисковых методик, то лучше всего обратиться к обычным словарям. Их количество в сети довольно вели­ ко. Мы приведем только URL-адрес немецко-английского библиотеч­ ного словаря: http://www.cyboerg.de/glossar. На этом мы и закончим наше введение.

ГЛАВА 1

ИНФОРМАЦИЯ И ДОКУМЕНТЫ

/Понятие «информация»

"Роль информации в личной, профессиональной и социальной жизни человека столь велика, что попытка дать ее всеобъемлющее опи­ сание обречена на провал. Понимать ведущую роль информации люди стали не очень давно. Возникновение такого понимания совпало, что весьма естественно, с бурным ростом информационных технологий. Этот рост резко увеличил то количество информации, с которым по­ вседневно приходится иметь дело человечеству. Понятия информации, информатики и информационных систем и сетей повсеместно распро­ странены. Почти наверняка нет человека, который не только слышал бы эти термины, но и не имел бы о них некоторого интуитивного пред­ ставления, однако интуитивное понимание, а значит и подразумевае­ мое определение термина (понятия) «информация», далеко не одно­ значны. Такая ситуация часто встречается при знакомстве с достаточно общими понятиями, которые точно не определяются и их смысл выч­ леняется только при массовом использовании. Для описания основных проблем, затрагиваемых в данном пособии, интуитивного понимания термина информация вполне достаточно. Тем не менее для ряда оце­ нок качества получаемой информации полезно сделать некоторые уточнения и ввести некие определения. Им и посвящен этот раздел, который стоит несколько в стороне от основных задач пособия, но зна­ комство с которым, на наш взгляд, все же достаточно полезно.

Слово информация происходит от латинского слова informatio — разъяснение, изложение. Это означает, что информация — это нечто несущее или таящее в себе некоторые сведения. Такое определение яв­ ляется достаточно общим, и, как следствие, связано с потерей конкрет­ ности. Последнее обстоятельство естественно для общих определений всех базовых (фундаментальных) понятий. Его скорее можно назвать философским определением. Стало быть, для уточнения смысла тер­ мина информация необходимо уточнить и конкретизировать его содер­ жание, обратив внимание на его основные свойства.

При введении любого нового термина теория обычно стремится оп­ ределить его с помощью других терминов, которые, в конечном итоге, опираются на различные постулаты. Такой чисто теоретический под­ ход не всегда удобен, и поэтому в нашем случае можно исходить из дру­ гого подхода, который принято называть операционным или операционалистским. В этом случае вводимая вновь величина определяется путем указания способа ее измерения. При таком подходе информа­ цию можно определить через вызванное ею уменьшение числа возмож­

Информация и документы

37

ных ответов в некоей задаче (проблеме). Таким образом, количество информации связывается с уменьшением неопределенности. Количе­ ственный подход к определению информации позволяет изучать воп­ росы хранения и передачи информации, однако он совершенно не ка­ сается ценности информации. Ценность информации связывают с ее прагматическим смыслом, то есть с возможностью ее разумного ис­ пользования.

Поясним понятие прагматического смысла информации. Ценность информации зависит от соответствующей ситуации, а также от уровня сведений, которые могут уже иметься у индивидуума. Можно сказать, что ценность информации существенным образом зависит от характе­ ристик воспринимающего информацию субъекта, точнее от уровня уже имеющихся у него знаний. Сумму этих знаний принято опреде­ лять как тезаурус субъекта. Иными словами, ценность информации есть функция тезауруса воспринимающего объекта и в этом смысле она относительна.

Анализ математической формулы дает совершенно разные представ­ ления о скрытом в ней смысле в зависимости от того, каков образова­ тельный уровень человека, с этой формулой знакомящегося. Таким об­ разом, семантический смысл информации связан как с объектом, с которым соотносится информация, так и с субъектом, получающим и анализирующим данную информацию.

О наличии информации обычно судят, если замечают в распределе­ нии каких-либо объектов (знаков, предметов и т. д .) некие отклонения от хаоса. Иными словами, информация определенным образом связа­ на с упорядоченностью. Можно говорить о том, что во внешнем мире любая информация — это упорядочение, которое может быть осмыс­ ленно истолковано. Информация искусственного происхождения, то есть информация, которая создана человеком, — это любое целена­ правленное упорядочение. В то же время следует учитывать, что ин­ формация при полном упорядочении (когда, например, все знаки в тексте строго периодически повторяются), на самом деле не так уж и велика. Собственно говоря, в этом случае имеют дело только с очень малым количеством информации: наличием упорядоченности и ее ха­ рактеристиками. Это соответствует минимально возможному количе­ ству информации, иногда даже всего в 1 бит (одна единица двоичного кода). Приведем пример практически нулевой информации:

АВАВАВЛВАВАВАВАВАВ.

Фактически информацию здесь несет только число повторяемых символов в группе А и В, а также число повторений. В действительное-

38

Глава 1

ти, хотя расположение последовательных единиц, несущих информа­ цию (обобщенно символов), и упорядочено, в их расположении не дол­ жно быть строгой регулярности. Чем более неожиданным (непредска­ зуемым) является расположение символов, отличное в то же время от полного хаоса, тем более информативным и содержательным является общий смысл сообщения или хранимой информации. В этом случае мы сталкиваемся с неожиданностью или непредсказуемостью инфор­ мации. Приведем пример словесного сообщения, когда практически каждое следующее слово нельзя предвидеть, опираясь на предыдущий текст:

Он надувшийся громчайше закид следившей прислали толстая пузырь замечать говорите;

не подошла и далее, меченный шишка Воронухиной заходиламасон голова взял стеалось потухание. И, подумав двери туфлей он какая чужим гцурили.

Этот текст получен путем случайной выборки слов из романа А. Бе­ лого -«Московский чудак» (эта работа была выполнена переводчиками известной монографии А. Моля, посвященной информации). Знаком­ ство с этим отрывком сразу же показывает, что непредсказуемость, нео­ жиданность и понятность связаны между собою так, что возрастание одной из этих характеристик соответствует уменьшению другой. При передаче информации и просто при знакомстве с ней понятность обес­ печивается тем, что в сообщении или же, например, в файле, имеется некоторая избыточность, то есть некий резерв. Он-то и позволяет вос­ становить информацию при разного рода нарушениях в процессе ее хранения или передачи. Отметим также важнейший закон, являющий­ ся одной из возможных формулировок второго начала термодинами­ ки, а именно: при всякой передаче информация искажается. То есть всякая передача и копирование информации неизбежно связаны с из­ менением ее качества.

Все естественные языки имеют существенную избыточность (для русского языка избыточность составляет около 45%). Считается, что во всех языках количество информации, приходящейся на одну букву или фонему, приблизительно равны. При этом основная информация сосре­ доточена обычно в начале слова. По этой причине в аббревиатурах по­ чти всегда используются начальные буквы слов. В то же время широко распространены сокращения, которые комбинируют и начальные, и ко­ нечные части слов (например, транзистор = transformer + resistor). Нам достаточно лишь отметить, что избыточность информации может слу­ жить мерой ее понятности.

Информация и документы

3 9

/ Связь информации с ее носителем

Информация связана не только с воспринимающим ее индиви­ дуумом (субъектом). Весьма существенна связь информации с так на­ зываемым носителем. Под термином носитель подразумевается любой материальный объект, на котором расположена (закреплена) инфор­ мация. Действительно, информацию в «чистом» виде можно только попытаться себе представить. На самом деле она всегда связана с неко­ торым объектом-носителем. Это может быть глиняная табличка с кли­ нописными текстами, папирусный свиток, лист бумаги или пергамена. Носителем определенного типа информации является и полотно кар­ тины. Информация может располагаться на кино- и фотопленке, маг­ нитной ленте, на дискете или же на жестком диске (винчестере) ком­ пьютера, на оптическом диске. Для речевой информации носителем является звуковая волна. При передаче информации ее временным но­ сителем могут быть не только звуковые, но и радиоволны. Этот список нетрудно приумножить. Для нас важны следующие, достаточно очевид­ ные обстоятельства:

Одна и та же информация может располагаться на разных носите­ лях и переносится с одного носителя на другой. Это могут быть однотипные носители, например, копии одного и того же тиража книги. В то же время носители информации могут иметь и раз­ ную природу: одну и ту же информацию, например, запись песни, можно расположить на магнитофонной ленте, компакт-диске и даже на пластмассовой патефонной пластинке. В этих случаях мы говорим о разнотипных носителях. Суть информации и ее харак­ теристики остаются при этом неизменными.

На одном и том же носителе, иногда практически в одной и той ж е его части, может быть записано несколько информационных сообщений.

Информация может быть нанесена на различные носители. Ин­ формация, зафиксированная на каком-либо носителе, называет­ ся документом.

Вэлектронных сетях понятию документ в известной степени соот­ ветствует понятаересурс. Мы пользовались уже этим выражением без особых пояснений. Термин ресурс, как и термин документ, использу­ ют в расширительном смысле. К сожалению, традиционное библиотеч­ ное понимание терминаресурс отнюдь не соответствует использованию этого термина в Интернете. Вся литература, связанная с Интернетом, использует термин ресурс в качестве электронного аналога термина «документ». Вне всякого сомнения, желательно было бы для этих це-

40

Глава 1

лей использовать иной термин, однако авторы данного пособия вынуж­ дены считаться со сложившейся практикой и обращаться к термину ре­ сурс именно в том смысле. Во избежание недоразумений мы везде, где это необходимо, добавляем в этом случае к термину ресурс прилага­ тельное электронный. Э то не вполне удобно, но зато вполне однозначно.

Поиск информации в электронных сетях в конечном итоге приводит к адресу или обычного документа на традиционном носителе, или ж е к документу в электронной форме (то есть записанному где-то в машин­ ной памяти или же на магнитном носителе). Таким образом, мы смело могли бы говорить о поиске в сетях документов вне зависимости от того, какой материальный объект использован для хранения на нем ин­ формации, однако в сложившейся практике такая терминология не ис­ пользуется. Мы вынуждены с этим считаться, но для материалов, под­ линники которых хранятся вне сетей и размещаются на традиционных носителях, предпочтительней пользоваться термином «документ».