- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
П о д г о т о в и т е л ь н ы й э т а п
1.Формулирование задания па экстрагирование, включающего вы бор одной из задач: формирование различных видов аннотаций или ре фератов или формирование самостоятельных фрагментов или автокон спектов; выбор разновидности алгоритма неключевой лексики, соот ветствующего задаче экстрагирования; выбор одной из типовых формул выбора, соответствующей задаче экстрагирования; выбор ре жима цветовой разметки текста — сплошная разметка или частичная (соответствующая задаче экстрагирования).
2.Запуск программы Word 2000 и вывод на экран очередного доку мента, подлежащего аналитико-синтетической переработке.
3.Запуск программы цветовой разметки текста.
4.Включение режима цветовой разметки текста.
О с н о в н о й э т а п
5.Зрительное сканирование размеченного различными цветами текста с фиксацией внимания на фразах и фрагментах, соответствую щих требованиям конкретного алгоритма (АНЛ). При этом при нали чии коннекторов просматриваются соответственно выше- и нижестоя щие предложения.
6.Выделение фраз, релевантных требованиям алгоритма АНЛ, и на правление их в «Копилку».
З а к л ю ч и т е л ь н ы й э т а п
7.После завершения операции экстрагирования вывод на экран со держимого «Копилки» и выполнение операции постредактирования — введение межфразовых связей (если есть необходимость), согласова ние надежных окончаний, единственного и множественного числа и т. д.
8.Присвоение полученному документу имени файла и направление на хранение в соответствующую папку или вывод на печать.
9.Переход к экстрагированию следующего документа.
6.3.1. Формирование аннотаций и рефератов
В случае формирования аннотаций или рефератов возможны две ситуации —общее экстрагирование документа и избирательное экстра гирование:
Ситуация 1: не ставятся цели получения конкретной разновидности аннотации или реферата, а довольствуются получением общего экс
тракта-заготовки, из которой формируют возможные виды вторичных документов, при этом осуществляется режим сплошной цветовой раз метки текста и применяется полный алгоритм неключевой лексики. Получение такой «общей» заготовки в практике машинного свертыва ния — на современном уровне разработанности технологического про цесса —является наиболее частым способом подготовки вторичных до кументов типа аннотаций и реферативных аннотаций, которые могут использоваться как при формировании реферативно-библиографичес ких пособий, так и в качестве объекта автоматического индексирования при вводе документов в ИПС.
Ситуация 2: выбирается соответствующая задаче экстрагирования формула выбора и соответствующий алгоритм неключевой лексики. Избирательное свертывание предъявляет к процессу экстрагирования более строгие требования. Обычно опытный референт при беглом про смотре размеченного текста легко определяет возможность такого из бирательного подхода и принимает решение о выборе способа экстра гирования.
6.3.2.Формирование минимальных релевантных фрагментов
При формировании самостоятельного реферата-фрагмента (мини мального релевантного фрагмента) также возможны две ситуации: 1) фрагментирование всего текста на основе всего перечня маркеров группы M-III (в случае, например, сплошного фрагментирования вход ного документального потока) и 2) путем «выращивания» минималь ных релевантных фрагментов (в случае необходимости формирования вторичного документа —самостоятельного фрагмента) по специально сформулированному запросу.
В первом случае формула выбора включает один из маркеров груп пы M-III и коннекторы. Чтобы раскрыть перечень аспектов того или иного маркера группы M-III, референт должен обратиться к пользова тельскому меню и в его списке выбрать маркер, соответствующий ас пекту (например, Технологический процесс, Схема, Конструкция, Ме тодика, Принцип действия и др.). В этом случае раскроется, к примеру, схема частного алгоритма неключевой лексики «Технологический про цесс», включающая аспекты:
—сущность технологического процесса;
—последовательность отдельных операций;
—объект, подвергавшийся обработке (воздействию); —применяемое оборудование и инструмент;
—результаты процесса, свойства полученного продукта;
—область применения процесса.
Последующие операции идентичны описанным выше.
Во втором случае — «выращивание» МРФ — формула выбора включает соответствующий маркер группы М-Ш и перечень ключевых слов, отражающих содержание фрагмента и сформулированных в за просе (например, М-Ш Метод: Кл. Анализ л Цепь л Магнитная л Дви гатель л Асинхронный). В случае обнаружения в тексте фразы, содер жащей перечисленные признаки, референт проверяет, используя кон некторы, фразовое окружение маркированного предложения с целью очертить его смысловые границы. Последующие операции — выделе ние, направление в «Копилку» —аналогичны приведенным выше.
6.3.3. Формирование квазиконспекта
При автоматическом конспектировании, т. е. создании развернутого вторичного документа, предназначенного для индивидуального ис пользования, типовой формулы выбора быть не может, поскольку одни и те же аспекты документа для разных пользователей могут иметь раз личную информативность. В самом общем виде автоконспектирование сводится к решению двух задач: а) разделению текста на три части — ненужные фрагменты, относительной необходимости («на потом») и непосредственно нужные; б) лексическому свертыванию фраз, относя щихся к фрагментам двух последних частей текста.
Вслучае конспектирования в режиме «относительной необходимо сти», когда источник обрабатывается с целью вернуться к нему «по том», применяется обычно аниотативно-реферативный способ сверты вания: в формулу выбора (поисковое предписание) включаются марке ры аспектов ПВР, ПП, ЦУ, В, Р, Рек. Если структура документа такова, что эти аспекты в тексте документа (статьи) не четко фиксируются, то тогда следует прибегнуть к функции Word —«Автореферат». Аннотативные функции такой «автореферат» обычно выполняет удовлетвори тельно. Таким образом мы получаем массив аннотативных конспек тов —задел для последующей работы.
Вслучае конспектирования в режиме «непосредственно нужные» применяется способ фрагментирования методом выращивания МРФ, описанный выше. При конспектировании в этом режиме —а это основ ной на практике способ свертывания, в результате которого из текста документа извлекается только непосредственно необходимая для рабо ты информация,— главное четко сформулировать на языке ключевых слов (часто с учетом синонимов и парадигматических отношений) по
исковое предписание с добавлением в него в случае необходимости маркеров III группы, а также результирующих и акцентирующих инди каторов. Текст просматривается по методу сканирования с выделением релевантных задаче конспектирования фраз, которые направляются в «Копилку», т. е. выполняется операция предредактирования. Необхо димость в постредактировании в данном случае обычно отпадает.
Текст, отнесенный пользователем к двум последним частям текста, в процессе конспектирования одновременно подвергается автоматиче скому лексическому свертыванию *. Лексическое свертывание пред ставляет собой совокупность операций по преобразованию части лексики документа в обусловленные заранее «свертки», применение которых, не изменяя информативности документа, приводит к сущест венному иногда изменению физического объема текста. Здесь, в этот список сокращений, принятых в той или иной области знания, включа ются не только общепринятые аббревиатуры, но многие сокращения, принятые в различных справочниках (энциклопедиях, библиографиях и т. п.). Обширный перечень сокращений лексики универсальной тема тики использован, например, в «Большой советской энциклопедии». Для автоматической замены в тексте полных слов на их сокращения следует использовать режим Word «Автозамеиа».
Следует отметить, что квазиконспектирование, особенно в случае последнего режима,—один из самых простых и доступных методов ав томатизированной обработки документов, поскольку позволяет начать его освоение с минимального набора лексических средств (см. Прило жение 2) и собственного «набора» ключевых слов. Естественно, посте пенно в силу своих потребностей, следует расширять и совершенство вать свой аппарат лексического свертывания. Подспорьем в этой работе может служить словарь маркеров (словесных клише), опубликованный в обзоре В. И. Горьковой и Э. А. Борохова (9, с. 177—189).
Рассмотренные в данной главе элементы технологии, используемые для развития индикаторного метода свертывания текстов, находятся в настоящее время на уровне лабораторных и учебно-методических раз работок, тем не менее имеющийся уже «инструментарий» в виде техно логической документации вполне позволяет встроить систему «Инди катор» в практику работы информационных и библиотечно-библиогра-
* Как известно, существуют две разновидности свертывания текста, семантическое и лексическое. Первое предполагает внесение изменений в план выражения текста с умень шением его информативности (плана содержания). Второе — внесения изменений (пре образований) в текст без существенного уменьшения его информативности.
фических служб. Конечно, некоторые элементы системы еще нуждают ся в доработке — «доводке» лексического аппарата экстрагирования, расширении спектра алгоритмов анализа текста с целью увеличения документальной базы, подпадающей иод влияние данного метода, бо лее широкого использования возможностей текстовых процессоров, в частности Word 2000, и прежде всего применения макросов, шаблонов и мастеров. Надо только четко отдавать себе отчет в том, что метод не обладает стопроцентной работоспособностью с точки зрения получе ния каждый раз удовлетворительных результатов. Существуют доку менты, их процент невысок, которые плохо поддаются свертыванию по рассматриваемой технологии, но метод цветовой разметки сразу позво ляет референту (пользователю) выявлять такие документы. И несмот ря на этот «минус», пока не известны среди существующих методов ав томатизированного свертывания те, которые могли бы конкурировать с предлагаемым с точки зрения избирательности и управляемости про цессом аналитико-синтетической переработки текстов.