- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
Таковы основные теоретические положения, которые лежат в осно ве одного из специфичных видов свертывания — индексирования. В различных информационно-поисковых системах эти положения реали зуются по-разному с учетом возможности технических средств, про граммного обеспечения и целевого назначения ИПС (на какие катего рии потребителей данная система ориентирована). В некоторых ИПС вообще не существует индексирования документов, а все усилия на правлены на индексацию запросов. Есть и другие подходы к решению проблемы индексирования, о чем речь пойдет ниже.
2.1.6. Автоматизация процесса индексирования
Индексирование документов и запросов — не только одна из важ нейших операций поискового процесса, но также достаточно трудоем кая операция, требующая применения квалифицированного труда и значительных финансовых затрат. Поэтому неудивительно, что с появ лением первых же автоматизированных информационно-поисковых систем возникла проблема заменить на этом участке поискового про цесса человека машиной, т. е. автоматизировать процедуру индексиро вания.
2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
Одной из первых таких поисковых систем, в которой данная про блема была в определенных рамках решена, явилась система АИПС «Пусто —Непусто», разработанная коллект ивом сотрудников ВНИИТЭИ «Информэлектро» совместно с ВИНИТИ в 60-х годах прошлого столе тия. Из каких, вкратце, этапов складывался процесс автоматизирован ного индексирования на основе пословного перевода: а) перенос вторич ных документов (как правило, рефератов из отечественных или зару бежных реферативных журналов) на специальные бланки и придание им порядкового номера (адреса); б) перфорирование текста документа и ввод его в ЭВМ с перфоленты; в) первичное индексирование, в про цессе которого все слова текста документа сравнивались со словарем (поисковым языком), хранящемся на магнитной лейте. Опознанным словам, подлежащим переводу на поисковый язык, приписывались ко ды ключевых слов. Коды упорядочивались по номерам, при этом повто рения исключались. В таком виде первичный поисковый образ доку мента записывался на магнитную ленту и одновременно выводился на печать алфавитно-цифрового печатающего устройства (АЦПУ); на эту печать выводились также неопознанные слова текста (которых в слова
ре еще не было); г) результаты первичного индексирования подлежали «ручной» корректировке (исправлению и дополнению), после чего за писывались также на перфокарту и вновь вводились в ЭВМ —получал ся окончательный поисковый образ (в среднем 40—50 дескрипторов на документ).
На индексирование документа объемом 1000 печатных знаков за трачивалось до 1 минуты машинного времени (из них 35—40 секунд на первичное индексирование).
В чем проявлялся принцип пословного перевода: в опознании в тек сте слов русского языка (в последующих версиях — английского, не мецкого и французского) и замене его соответствующим цифровым ко дом. В памяти ЭВМ раздельно хранились словарь основ русского языка (постоянные части слов) и списки окончаний (переменные части слов). Алгоритм опознания слов текста сводился к следующему: слово текста сопоставлялось со словарем основ, если основа из словаря и начало сло ва текста отождествлялись, то часть слова, отличная от основы (ее на зывали «остаток»), сопоставлялась с общим списком окончаний: в слу чае нахождения в списке соответствующего окончания слово заменя лось номером ключевого слова, стоящим у его основы.
Устойчивые словосочетания естественного языка, например «высо кое напряжение», «постоянный ток», «закон Ома» и др., задавались специальным списком, который хранился отдельно от общего словаря основ. Такой словарь представлял собой список цепочек дескрипторов, соответствующих словам, входящим в словосочетания. Если оказыва лось, что в тексте встречаются подряд или в непосредственной близос ти основы слов, дескрипторы которых включены в одну цепочку слова ря словосочетаний, то эти слова переводились на дескрипторный язык в виде соответствующего единого цифрового кода.
Проблеме омонимии, отрицательно влияющей, как известно, на точ ность поиска, первоначально уделяли значительное внимание. Однако опыт эксплуатации АИПС показал, что неразличение омонимов при пословном автоматическом индексировании не приводит к заметному снижению качества поиска, и этот вопрос в дальнейшем не рассматри вался.
** *
Стех пор, как в нашей стране была создана первая система автома тического индексирования, работы в развитие этого метода свертыва ния проходили достаточно активно за счет совершенствования про граммного обеспечения этого процесса и применения более совершен ных компьютеров. Однако принципиально метод пословного перевода
текстов документов па формализованный ИПЯ остался прежним, из менившись в соответствии с усовершенствованием технических и про граммных средств.
Как в общих чертах работают современные поисковые системы (по исковые машины) с точки зрения индексирования вводимых в них до кументов и запросов. Информационная составляющая машины вклю чает в себя 3 группы файлов: 1) файл полнотекстовых документов (включающих всю библиографическую информацию об этих докумен тах); 2) словарь, представляющий собой алфавитный перечень всех встречающихся в базе данных слов; 3) инверсный файл, в котором ука зано местонахождение каждого слова в текстах документов. Поиск в больших базах данных без использования таких инверсных файлов не может быть эффективным.
Словарь и инверсные файлы создаются с начала ввода (индексиро вания) документов в базу данных, в процессе которого образуются их поисковые образы. Каждый последующий документ помещается в дей ствующий перечень с таким расчетом, чтобы система располагала все ми сведениями о местонахождении каждого слова с его положением внутри каждого документа.
Отличительной особенностью систем автоматизированного индек сирования, использующих языки, функционирующие в координатном режиме (языки ключевых слов, дескрипторные), по сравнению с систе мами, осуществлявшими ввод в «ручном режиме» (с помощью специ альных дескринториых словарей), является сосредоточение внимания первых прежде всего па обработке запросов. Как уже указывалось вы ше, дескрипторные языки, создаваемые первоначально специально для автоматизированных систем поиска информации, в силу сложной ма шинной реализации парадигматических отношений, а также плохой со вместимости (также в силу различия в парадигматических отношени ях) дескринториых языков различной отраслевой принадлежности, ус тупили свое место языкам ключевых слов, по сути, естественными языками. В результате центр тяжести процедуры индексирования пере местился с индексирования документов на индексирование запросов, которых в процессе функционирования ИПС на два порядка меньше, чем документов, что значительно удешевляло эксплуатацию систем. Поэтому бороться с избыточностью и недостаточностью естественного языка с точки зрения информационного поиска стали не столько на эта пе ввода документа, сколько за счет более тщательного формирования поискового предписания (запроса) и разработки детальной стратегии писка. О том, как осуществляется обработка (индексирование) запро сов в некоторых современных русскоязычных ииформационно-поиско-
вых системах, проиллюстрируем па примере двух поисковых систем — «Артефакт» и «Яндекс».
2.1.6.2.Индексирование в ИПС «Артефакт»
При вводе документов в базу данных каждый документ подвергает ся морфологическому анализу: слова документов автоматически нор мализуются — приводятся к именительному падежу, единственному числу и мужскому роду (для существительных и прилагательных), гла гольные формы и причастия представлены инфинитивом. Нормализа ция производится по морфологическим словарям, позволяющим рас познать более 3 миллионов словоформ русского языка. Поэтому, напри мер, слова «таможни», «таможню», «таможня», представляются в словаре одним словом «таможня», слова «представленный», «представ ляется», «представляем» —словом «представлять» и т. д. Слова, отсут ствующие в морфологическом словаре, вводятся в словарь базы данных во всех встреченных формах.
При морфологическом анализе производится автоматическое рас познавание приставок, имеющих самостоятельное смысловое значе ние —префиксов, например, авиа-, радио-, сельско-. Префиксоиды от деляются только в том случае, если слово, к которому присоединяется префиксоид, распознается по морфологическим словарям системы.
Аналогичные операции морфологического анализа осуществляют ся и со словами запроса перед выполнением поиска. Слова с приставка ми при этом автоматически преобразуются в фразы запроса так, чтобы получить оптимальный результат поиска.
Как же происходит индексирование запроса? С этой целью исполь зуется так называемый язык запросов, па котором выполняется поиско вое предписание. Допустим, нас интересуют документы, определяющие таможенные пошлины па ввоз автомобилей. Наше поисковое предписа ние будет выглядеть так: «таможенные пошлины автомобили». Слова запроса могут быть заданы в любой грамматической форме (род, число, падеж, лицо, время), и они будут в результате автоматического морфо логического анализа приведены в исходную (машинную) форму и гра мотно отождествляться со словами документа. Для ускорения процеду ры поиска слова запроса (поискового предписания) могут быть усече ны как справа, так и слева, или слева и справа одновременно. Для этого слова замыкаются знаком «*», например, слову предписания «тамож*» будут соответствовать в документе и «таможенный», и «таможня», и «таможенник».