Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Введение, посвященное полезным советам

21

Petersburg. А ведь в принципе допустимы и другие варианты. С личны­ ми именами вопрос обстоит намного сложнее и часто написание рус­ ской фамилии латиницей отдается на вкус ее обладателя. Это может вызвать много разночтений. Так, например, один из авторов считал бы правильным писать свою фамилию Romanenco, а не Romanenko, как написно в его иностранном паспорте. Ну а как транслитерировать фа­ милию Кукин? Можно написать и Kukin, и Cookin, а также еще по-дру­ гому. А ведь фамилия автора часто является одним из важнейших при­ знаков, по которым производится поиск информации.

Еще сложнее обстоит дело с транслитерацией иностранных фами­ лий на русский язык. Мы привыкли к определенным русским написа­ ниям и часто бываем в затруднении, когда надо произвести поиск, за­ писывая имена собственные на других языках. Пусть, например, вы интересуетесь историей раннего христианства, Византии или святооте­ ческой литературой. Почти наверняка вам встретится хорошо извест­ ное имя Иоаи Златоуст. К сожалению, в силу известных исторических причин, сведений о нем в русскоязычной литературе намного меньше, чем хотелось бы. В то же время в различных зарубежных изданиях ма­ териалов об Иоане Златоусте более, чем достаточно. Представим себе, что вы решили поискать сведения о нем в каком-либо англоязыч­ ном справочнике или энциклопедии. Как написать нужное имя? Уга­ дать это невозможно. По-английски Иоана Златоуста именуютJohn Chrisostom. То есть личное имя пишется на английский лад, а прозвище Златоуст просто транскрибируется в греческом произношении. Мож­ но подумать, что это просто экзотический пример. Приведем еще один пример, который взят нами из статьи в литературном журнале. Извест­ но, что город Нью-Йорк расположен в устье реки Гудзон, названной так в честь ее первооткрывателя капитана Hudson’а. Фамилия с тем же написанием в романах о Шерлоке Холмсе переводится как Хадсон. В связи с этим некие соображения о возможном родстве этой героини с известной исторической личностью, на которые, возможно, намекал Конан-Дойль, просто проходят мимо внимания даже самого искушен­ ного русского читателя.

Наша задача, однако, иная. Надо ответить на вопрос о путях возмож­ ной компенсации в реальной поисковой работе этой неоднозначности. Никакие филологические знания тут помочь не в силах. При поиске по фамилии в ее традиционном написании все материалы с другим написа­ нием фамилии будут просто проигнорированы поисковой системой, несмотря на то, что они имеются в наличии. Поскольку нет никаких твердых рекомендаций транскрибирования фамилий, дать четкие ука­ зания, позволяющие снять эти трудности, невозможно. Тем не менее

22

Введение, посвященное полезным советам

можно привести один полезный практический совет, которым авторы успешно пользуются в течение достаточно долгого времени. В случае, если вы не знаете, как правильно написать на каком-либо иностранном языке некую фамилию, которую желательно использовать при поиске, надо обратиться к тем документам, где эта фамилия может заведомо встретиться. Вернемся к приведенным выше примерам. Пусть мы не знаем или сомневаемся, как правильно написать по-английски фами­ лию Гекели. Тогда возьмем, например, в любой английской энцикло­ педии статью о Чарльзе Дарвине или же о теории эволюции. В них мы очень быстро найдем искомую фамилию в правильном написании. Этот прием не позволяет разрешить все практические трудности. О д­ нако он часто оказывается весьма и весьма эффективным. В дополне­ ние отметим, что многие поисковые системы стремятся «помочь» пользователю в случае подобных затруднений. Так, в Encyclopedia Britannica при допущении ошибки в написании фамилии или термина на экран выводятся все схожие слова, имеющие реальный смысл. К сожалению, эта система работает, если допущена ошибка в написании только одной буквы. В остальных случаях никакой подсказки вы не получите. Подобные «исправления» делают иногда и большие поиско­ вые машины. В качестве примера можно сослаться на поисковую сис­ тему Alta Vista. Сравнительно недавно авторы ошибочно пропустили букву в запросе Searching Engines, написав Engins. Система дала пра­ вильный ответ, предварив его однако фразой; Вы имели в виду термин engines? Такая помощь всегда полезна и приятна. Тем не менее всех проблем с трудностями правильного написания запросов она, конечно, не решает.

Отметим еще одно обстоятельство, о котором часто забывают, когда вводят русскоязычные запросы в англоязычные серверы. Как известно, кодовая таблица ASCII состоит из двух частей. Первая часть ее всегда неизменна. Она содержит буквы английского алфавита, цифры и ряд важнейших знаков, в том числе и знаки препинания. Во второй части таблицы сконцентрирован ряд специальных знаков, а также некоторые буквы других алфавитов, основанных на латинице. Это обычные буквы латиницы с диакритическими знаками. Пользование второй частью ко­ довой таблицы обеспечивает работу всех европейских и ряда других алфавитов, основанных на латинице. Кириллические же алфавиты на­ столько сильно отличаются от латиницы, что вторая половина кодовой таблицы просто заменяется на другую. В кириллических алфавитах есть много букв, которые отсутствуют в русском алфавите, например, л>, н>, у, 1 и др. Поэтому вторые половины кодовых таблиц ASCII для раз­

ных, даже близких славянских языков, разные.

Введение, посвященное полезным советам

23

Более того, даже русский алфавит кодируется по-разному, о чем мы уже говорили выше. Принято говорить, что каждой кодировке соответ­ ствует своя «кодовая страница» (Codingpage, сокращенно СР). Основ­ ные кодировки русского алфавита имеют свои СР с соответствующим номером. О СР-1251 мы уже упоминали. Известна и кодировка СР866. В наиболее распространенных русских кодировках буквы располо­ жены на тех местах второй части кодовой таблицы, где в таблице ASCII расположены латинские буквы с диакритическими знаками. Поэтому все программы, рассчитанные на работу с европейскими языками, пользующимися латиницей, «распознают» и большинство русских букв. Тем не менее русским буквам я, ч, в, ъ не хватило мест, закреп­ ленных за буквами латиницы. В старых системах поисковыми маши­ нами эти буквы иногда не воспринимались. Мы говорим об этом для того, чтобы читатель пособия понял, что из-за быстрого изменения ситуации в Интернете:

Проверка рекомендаций, которые вам встретятся, как и рекомен­ даций этого пособия, необходима.

Материалы, связанные с сетевыми технологиями, быстро устаре­ вают и изменяются.

Во многих справочных материалах Интернета, в отличие от обыч­ ных книг, часто никто всерьез не следит за их содержанием и не несет за это содержание никакой ответственности.

При знакомстве с файлами полезно обращать внимание на дату последнего обновления расположенного на них материала (last update).

Проблемы кодировки проявляются иногда в самых неожиданных ситуациях. Пусть, например, вы знакомитесь с содержанием финских или французских файлов. При этом вам в латинском тексте могут нео­ жиданно встретиться русские буквы. Ничего странного в этом нет. Просто на экран и на печать выдаются те кириллические буквы, кото­ рые стоят в таблицах на тех местах, где в таблице кодов ASCII нахо­ дятся соответствующие буквы латиницы с диакритическими знаками. Пугаться этого не надо, поскольку особенно это работе мешать не бу­ дет. Смысл нескольких русских букв, заменяющих буквы латиницы (в случае немецкого языка их 4) запомнить не трудно. Если вам интерес­ но посмотреть, как это выглядит на практике, советуем зайти на глав­ ную страницу какого-либо из канадских университетов. Канада — это страна, где два государственных языка: английский и французский. По­ этому главные страницы (homepage) большинства организаций двуязыч­ ны. (Главные страницы по-русски называют также основными и домащ-

24

Введение, посвященное полезным советам

ними страницами. Некоторые тонкости в различиях этих терминов для нас не существенны.) Во французской части текста вы и увидите не­ сколько русских букв, окруженных латинскими. Это как раз описыва­ емый случай.

Если сказанное выше можно рассматривать, как описание некоей забавной ситуации, то далее мы коснемся достаточно серьезного, хотя и редкого случая. В практике сетевого поиска иногда возникает необ­ ходимость работы с поисковыми системами, которые используют не русский, и не английский языки. Так, известно очень много чисто не­ мецких и чисто французских серверов, а также шведские, финские, польские и другие серверы. Обращаются к ним не часто. Тем не менее у ряда пользователей необходимость такого обращения может быть стабильной. При этом возникает трудность при вводе запросов, ис­ пользующих некоторые буквы соответствующих алфавитов, например буквы g или &. На вашей клавиатуре их нет и воспользоваться столь удобной и хорошо известной кнопкой процессора Word: Вставка при включенном броузере, а именно тогда и нужны эти буквы, нельзя. О д­ ним из путей преодоления этой трудности является введение в ваш компьютер соответствующего алфавита. Поскольку в компьютере уже наверняка есть, кроме английского, еще и русский алфавит, но­ вый алфавит будет уже третьим по счету. Ввести еще один алфавит в Word не трудно. Для этого надо только внимательно прочитать руко­ водство по инсталляции. К сожалению, при простом введении нового языка в Word броузеры иногда на это не реагируют. Наш опыт пока­ зывает, что с броузером Internet Explorer больших проблем обычно не возникает. В то же время они часто появляются при пользовании бро­ узером Netscape Navigator. В таких случаях следует обращаться к по­ мощи квалифицированного специалиста или искать обходные пути.

Как и во всех компьютерных проблемах, существует несколько пу­ тей обхода препятствия. Остановимся на самом простом. Мы уже гово­ рили, что русские буквы во второй половине кодовых таблиц занимают места латинских букв с диакритическими знаками таблицы ASCII. Именно поэтому вместо этих букв, скажем &, д, 0 , б и так далее на экра­ не вашего компьютера появляются русские буквы. Запомните, чему они соответствуют, и вводите в текст запроса вместо них соответству­ ющие русские буквы. М ожно не следить за появлением русских букв в тексте, а просто сравнить между собой разные кодовые таблицы. При введении русских букв принимающая запрос система отреагирует на них, как на соответствующие латинские буквы. Так, например, в таб­ лице символов английской версии Windows буква а занимает 228 пози­ цию. В кодировке русской версии W indows эту позицию занимает бук­

Введение, посвященное полезным советам

25

ва д. Таким образом, набрав на вашем компьютере букву д, вы вправе ожидать, что на сервере принимающей системы, где стоит английская кодировка, она должна быть воспринята как буква S. Такой подход дол­ жен, по крайне мере в принципе, решить проблему. Внешне задача эта не сложная, хотя ее решение требует и времени, и внимания. Однако на практике такой подход не всегда просто реализуется из-за наличия раз­ ных кодировок русских шрифтов.

Некоторые вопросы, связанные стерминологией, применяемой в сетевых адресах

Мы с самого начала оговорили, что наше пособие ориентирова­ но на читателя, который имеет основные навыки пользования Интер­ нетом. Тем не менее уровень знаний об Интернете у разных читателей может быть разным. Нашей целью является не описание Интернета и его принципов, а краткое напоминание о терминах и некоторых при­ емах, которые нужны при пользовании пособием. Кроме того, мы включили в этот краткий раздел несколько полезных замечаний. В се­ тевых системах техническая и технологическая части быстро меняют­ ся и обновляются. Поэтому для сохранения преемственности многие устаревшие решения до сих пор используются на практике. С этим связано большое количество разных программ, названий и терминов. Фактически ничто серьезное в информационных сетях не уничто­ жается. Просто постепенно и очень медленно устаревающие компо­ ненты сети незаметно отмирают. Тем не менее в различных пособиях и непосредственно в сетевых файлах можно встретиться и с устарев­ шими терминами и понятиями. Те, кто систематически обучался ра­ боте в Интернете, могут безболезненно пропустить этот раздел.

Итак, в основе сетевых технологий лежит передача данных с ком­ пьютера на компьютер. Реализация этой передачи основана на опре­ деленных правилах, так называемом сетевом протоколе. Протокол включает в себя заранее определенные правила запроса, оформления и пересылки по сети разных видов информации. Это не только алфа­ витно-цифровые документы. Пересылаются и звуковые файлы, и фай­ лы-рисунки или фотографии. Вся эта информация пересылается в цифровой форме. Для того чтобы можно было реализовать протокол, создаются специальные программы. Они называются программы-сер­ веры и программы-клиенты. Естественно, что эти программы должны быть согласованы между собой для каждого из протоколов. При этом говорят, что обмен информацией осуществляется по тому или иному протоколу. На больших узлах Интернета обычно имеется полный набор

Введение, посвященное полезным советам

27

Естественно, что вы можете встретиться как с русифицированной, так и с исходной, англоязычной, версиями этих программ. Обычно переход к русскому варианту можно задать при установке программы. Вторая сверху строка — это строка меню Menu Ваг, в которой располо­ жены обычные для Windows кнопки, а именно: Файл (File), Правка (Edit), Вид (View), Переход (Favorites), Компоненты (Tools), Справка (Help). П еревод этих названий на русский язык не всегда точен, но именно эти термины реально используются в русифицированных вер­ сиях броузеров. Под словами с этими названиями расположены гра­ фические символы наиболее часто используемых программ. Пользо­ вание всеми этими управляющими средствами стандартно и мы на этом вопросе не останавливаемся. Между указанными двумя строка­ ми находится еще одна важная строка — строка адреса (Address Ваг).

В ней пользователь указывает адрес того ресурса, к которому он хочет обратиться. Без этого адреса (его надо ввести в строку, а затем активи­ зировать ее нажатием клавиши Enter) система будет терпеливо ждать ваших указаний. Безусловно, для уверенного пользования Интерне­ том желательно хорошо разобраться в структуре всех строк, в на­ стройке панелей управления и т. д. Все это описано в многочислен­ ных руководствах. Наилучшим способом освоения этих действий является практика, так как символы и названия команд достаточно очевидны. Обращаться за помощью приходится только в исключи­ тельных случаях.

Для поисковой практики и разъяснений терминологии необходимо ознакомиться с системой адресации, необходимой для нахождения ис­ комых файлов. В Интернете используется система универсальных ад­ ресов, называемых URL Uniform Resource Locator(что можно переве­ сти как Унифицированный указатель ресурса). При этом источником информации, то есть ресурсом, могут считаться компьютер, база дан­ ных, отдельный файл и т. п. Зачастую в текстах, в том числе и учебных, вместо слова адрес просто пишется URL. URL содержит в себе не толь­ ко сведения о том, где находится данный ресурс, то есть информация. Он обязательно указывает и то, с помощью какого протокола осуще­ ствляется доступ к этому ресурсу.

В броузерах URL-адрес состоит из двух частей. В левой части адреса даются указания на тип ресурса, то есть даются указания на протокол связи:ftp, http и т. д. Правая часть отделена от левой двоеточием и имен­ но в ней находится указание на расположение нужного ресурса в сети. Форма записи, то есть синтаксис правой части, зависит от левой. Иными словами, синтаксис определяется протоколом. В работе с профессиональ­ но ориентированной информацией чаще всего приходится сталкиваться

28 Введение, посвященное полезным советам

с гипертекстовыми документами WWW. В этом случае URL-адрес имеет следующую типовую структуру:

http://<adpec сервера>/<имя файла>,

где / — широко применяемый для разделения частей адреса знак. Он называется слэш (по-английски это — разрез). Соответственно, знак \ называется бэкслэш, то естьразрез с обратным наклоном. Адрес может начинаться и с указания другого протокола, например ftp.

В приведенном выше выражении <адрес сервера> представляет со­ бой доменный адрес (domain address) или же так называемый IP-adpec

того компьютера, на котором находится нужный файл, то есть нужная информация. IP-адрес это цифровой адрес, который уникален для каждого компьютера. Он представляет собой последовательность цифр О и 1, переведенную затем в десятичные цифры. В принципе этот ад­ рес, если он известен, можно указывать в адресной строке броузера, однако рядовой пользователь так поступает очень редко. В практиче­ ской работе по поиску информации без такого типа адресов можно спо­ койно обойтись. Доменный адрес обычно называют хостом от англий­ ского host пате. Этот адрес делится на несколько частей (сегментов). Сегменты отделяются друг от друга точками. Они представляют со­ бой написанные латиницей слова, части слов или же аббревиатуры. Их смысл обычно не сложно расшифровать.

Система доменов в хосте образует иерархическую структуру. Край­ ний домен справа — перед первым /, если такой есть, называется доме­ ном верхнего уровня. Далее справа налево идет обычный счет доменов. Электронные сети впервые появились в США. Там же разрабатывались и принципы адресации. Первоначально в СШ А домен первого (верх­ него) уровня обозначал тип организации, к которой относится домен­ ный адрес. Этот домен состоит из трех букв. В начале подобных доменов было только шесть: сот — коммерческие организации, gov — государ­ ственные организации, edu — учебные заведения, mil военные учреж­ дения, net сетевые организации и, наконец, org — все прочие орга­ низации. Число доменов первого уровня оказалось недостаточным, и сравнительно недавно было введено в общее пользование еще не­ сколько подобных доменов.

Ныне такие домены первого уровня используются и в других стра­ нах, в том числе и в России, однако значительно чаще во всех странах, кроме США, домен первого уровня состоит из двух латинских букв, обозначающих страну. В России это ги (или в старых, еще советских адресах, su), на Украине — иа, в Германии — de, в Англии — uk и т. д. Есть домен и для США. Это us. Однако, он используется очень редко. Стоящие в следующем слева домене слова могут обозначать город, на­

Введение, посвященное полезным советам

29

звание организации и пр. Последний слева домен часто бывает www. Объяснять его очевидное происхождение и смысл нет необходимости. Домен www встречается так часто, что иногда в записях URL-адресов, приводимых в печатных изданиях, левую часть адреса просто опускают. Не следует, однако, забывать, что есть адреса, где крайний слева домен иной, например www2 или wwls. Естественно, бывают адреса, где в край­ нем слева домене вообще нет букв т. Так, один из адресов электронного каталога Библиотеки конгресса США записывается какhttp:/’/catalog, loc. gov*. На его примере поясним имена доменов. Домен gov, как мы уже говорили, означает государственную организацию, loc —это сокращен­ ное название организации (Library of Congress), слово catalog поясне­ ний не требует.

Имя файла, а иногда и весь адрес справа от двоеточия называют линк от английского слова link, которое имеет смысл звено цепи, связь. Эта часть указывает путь к нужному адресу на сервере. Иногда вмес­ то слова линк используют русское слово «дорожка», однако широко­ го распространения оно не получило. Эта часть адреса показывает последовательность переходов к нужному файлу, и происхождение его названий пояснений не требует. Рассмотрим, например, адрес сай­ та, посвященного истории возникновения правостороннего движе­ ния транспорта. Этот сайт расположен в РУНЕТе по адресу h ttp:// www.2000-online. ru/archive/marsOO/encic/right.asp. Отдельные части путевого имени разделены / , отделяя друг от друга последовательные переходы от главной страницы непосредственно к нужному файлу. Первая часть адреса — это имя сервера, из которого хорошо видно, что адрес российский (домен ги). Звено archive пояснений не требует. Смысл звена encic также ясен. Он происходит от слова энциклопедия. Звено right {правый) связано с названием статьи. Названия других зве­ ньев адреса расшифровать труднее, но это и не нужно, asp — это обозна­ чение того языка программирования, на котором написан файл. Иногда его без особого ущерба можно пропустить при запросе. Компьютер сам проставит эти буквы в строке адреса, когда найдет нужный файл.

В приведенном примере мы специально выбрали не очень длинный линк. В действительности линки могут быть очень длинными и слож­ ными. При этом часто броузер не может даже при правильном наборе адреса выйти на нужный файл. В этом случае на экране появляется хорошо известная всем, кто имеет некоторый опыт работы в Интерне­ те, страница, озаглавленная Thepage cannotbe displayed. Обычно даль­ нейшее не читают, тем более что такая страница может появиться в результате разных ситуаций, в том числе и неправильных действий

* Адреса записываются без точки на конце. —Прим, автора.

30

Введение, посвященное полезным советам

пользователя. Однако, если внимательно прочитать все содержание этой страницы, то можно увидеть, что одной из причин ее появления может быть невозможность реализовать на практике слишком длинный линк. В такой ситуации следует прежде всего убедиться, что причина вашей неудачи действительно вызвана этим. Для этого снова введите адрес, закончив его первым слэшем слева. Если все правильно, то вы попаде­ те на главную (домашнюю) страницу организации. Далее можно пос­ ледовательно добавлять звенья линка и определять, в каком месте си ­ стема не срабатывает. С этого места все переходы надо осуществлять вручную. М ожно и сразу же идти вручную прямо от главной (домаш ­ ней) страницы. Пусть например, у вас встретились трудности с адре­ сом файла (посвященного булевой алгебре) на сайте библиотеки кол­ леджа университета штата Нью-Йорк, расположенного в столице этого штата г. Олбани. Этот не очень длинный адрес имеет вид: h ttp :// library.albany.edu/intemet/boolean.htjnl. Мы приводим данный пример не потому, что ничего подходящего в РУНЕТе не существует. Просто этот сайт очень полезен людям, изучающим поиск в Интернете, и на­ помнить его адрес лишний раз только полезно. Итак, наберем http:/ library.albany.edu/ и сразу же попадем на главную страницу библиоте­ ки колледжа. Если мы сомневаемся в адресе библиотеки, то можно на­ чать с главной страницы колледжа. Даже если вы этого адреса не знае­ те, его легко сконструировать. Это будет http://www.albany.edu/. Если вы его не угадали, лучше обратиться ко всемирному каталогу адресов университетов galilei. Об этом каталоге мы еще расскажем ниже.

Итак, вы вышли на главную страницу колледжа. Там вы увидите много кнопок: история университета, правила приема, факультеты, alumni {контакты между выпускниками) и т. д. Ищите среди этих кно­ пок кнопку Library и нажимайте ее. Далее, войдя на главную страницу библиотеки, ищите учебные материалы Tutorials и нажимайте эту кноп­ ку. Это все достаточно очевидно. Далее помощь вам должен оказать линк. В соответствии с ним ищите кнопку Internet или что-нибудь, по­ хожее на нее по смыслу. Вы при этом выйдете на перечень учебных тем по работе с Интернетом, служащих пособиями для студентов. Среди них будут страницы (в данном случае их две, очень похожие друг на друга), посвященные булевой алгебре. Нажимайте соответствующую надпись-название, и вы у цели. Иногда цепочки становятся более длин­ ными, и в них можно встретить ряд неопределенностей. Тем не менее ориентируясь на записи линка, можно достаточно просто найти нуж ­ ную вам конкретную информацию. Последовательность описанных нами операций можно записать в следующем виде:

Library > Tutorial > Internet > Boolean.