Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
25
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ

Существующие методы автоматического реферирования, шире — компьютерного свертывания, даже находящиеся в «промышленной» эксплуатации, к примеру упоминавшаяся уже система «Автореферат» как одна из функций «Word 2000», нуждаются в интеллектуальном контроле со стороны референта (пользователя). Этот контроль в форме операции постредактирования «встроен» в одно из последних звеньев технологического процесса свертывания и потому уже мало влияет па качество процесса в целом. Функция постредактирования —оценка ка­ чества и внесение некоторых стилистических корректив в получив­ шуюся в результате свертывания «заготовку». Кроме того, насколько известно, из числа средств лексического аппарата индикаторного экст­ рагирования текстов реально работали маркеры, редко некоторые ин­ дикаторы и еще реже использовались коннекторы, на долю которых ло­ жится задача обеспечения внутритекстовых (межфразовых) связей. Последнее очень важно, поскольку, как показывает практика, маркеры идентифицируют преимущественно автосемантичные предложения, которые без синсемаптичпого окружения часто бывают недостаточны­ ми в смысловом отношении, поскольку закопченная мысль нередко не укладывается в рамки одного предложения. Коннекторы, как левые, так и правые (подробнее ниже) именно и предназначены обеспечить синсемаитическое окружение маркированной фразы.

Возникает вопрос, существует ли возможность:

1) не изменяя в принципе последовательности операций автомати­ зированного свертывания, встроить интеллектуальный контроль в на­ чальные звенья технологического процесса реферирования и тем са­

мым уже на начальных стадиях повысить качественную составляющую процесса, иными словами, заменить постредактирование на иредредактирование, оставляя за первым лишь стилистическую обработку заго­ товки (экстракта) —внесение связей между фразами, согласование вре­ мен глаголов и пр.;

2)задействовать на практике возможности индикаторов и коннек­ торов, которые в прежних разработках чаще учитывались потенциаль­ но, теоретически;

3)использовать возможности такого инструмента текстовой обра­ ботки документов, как последняя версия текстового процессора Micro­ soft Word 2000, внеся в нее, если потребуется, необходимые дополнения

ввиде макросов на языке VBA (Visual Basic for Applications).

Решение перечисленных выше вопросов и определили задачи изла­ гаемой ниже разработки.

Напомним кратко отличительную особенность индикаторного ме­ тода свертывания: на основе своего лексического аппарата —маркеров, индикаторов и коннекторов (элементов неключевой, впетематической лексики), формул выбора, отражающих требования к различным видам вторичных документов, индикаторный метод позволяет —в определен­ ных рамках — производить экстрагирование из текстов документов ми­ нимальных релевантных фрагментов (фраз), относящихся к различ­ ным содержательным аспектам документов (преимущественно научнотехнических статей), то есть осуществлять избирательное свертывание первичных документов с целью последующего (в соответствии с фор­ мулой выбора) формирования широкого спектра вторичных докумен­ тов, начиная от аннотаций и рефератов и кончая сложными синтезиро­ ванными документами типа дайджестов, реферативно-библиографиче­ ских обзоров, квазихрестоматий (индивидуальные учебные пособия) и др. В принципе метод рассчитан на то, чтобы в рамках своих возможно­ стей осуществлять контроль за содержанием первичного потока с це­ лью извлечения из него всей содержательной составляющей и создания на этой основе специализированных байков знаний, своеобразных ин­ версных файлов, обеспечивающих доступ к знаниям, содержащимся в первичном потоке.

6.1.СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ

Любая процедура свертывания обычно предваряется обращением к первичным документам, выполненным в электронной форме. Это мо­

жет быть в результате обращения к базам данных отечественных и зару­ бежных центров информации, к поисковым машинам типа Yandex, Апорт, Rambler, AltaVista, Lycos, Hotbot и др., к использованию CDROM, дискет и т. д. Этот предварительный поисковый этап машинного свертывания, сам но себе достаточно важный, поскольку отвечает за ре­ презентативность сформированного для свертывания массива, в дай­ ной главе опускается, так как связан с решением вопросов, не находя­ щихся в русле рассматриваемой проблематики.

Допускаем, что определенный массив тематически близких первич­ ных документов тем или иным способом сформирован и соответствует требованиям последующих мероприятий но свертыванию его элемен­ тов.

Каким «инструментарием» должен располагать референт (пользо­ ватель), осуществляющий процедуру избирательного автоматизиро­ ванного свертывания? Сразу же следует заметить, что речь в данном варианте идет не об автоматическом, а именно автоматизированном свертывании, в операциях которого доля человеческого (интеллекту­ ального) участия еще достаточно велика. Чтобы перейти к автоматиче­ скому режиму, необходимо постепенно, шаг за шагом, на основе даль­ нейшего совершенствования лексического аппарата, правил экстраги­ рования, программного обеспечения постепенно «вытеснять» человека из этого процесса, оставляя за ним лишь задачи формулирования зада­ ния на ту или иную разновидность свертывания и оценку полученного результата (продукта). Заглядывая несколько вперед, к конечной цели, совершенствование индикаторного метода должно привести к созда­ нию системы глобального сканирования виртуального информацион­ ного пространства (через Интернет) с целью формирования предмет­ но-ориентированных баз данных на основе фрагментов, экстрагирован­ ных из первичного документального потока.

Итак, чем же должна располагать система избирательного свертыва­ ния «Индикатор»:

—лексическим аппаратом свертывания;

алгоритмами анализа текстов на основе неключевой и ключевой лексики;

формулами выбора, ориентированными на формирование раз­ личных видов вторичных документов;

методиками аннотирования, реферирования, фрагментирования

иконспектирования;

программой цветовой разметки лексических единиц формализо­ ванного аппарата свертывания.

Эти компоненты системы избирательного свертывания образуют машиночитаемый массив технической документации, обращение к ко­ торому по мере необходимости со стороны референта (пользователя) обеспечивает нормальное протекание технологического процесса.

6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ

Технологическая документация включает следующий перечень:

1.Памятку о сущности индикаторного метода и его возможностях.

2.Словарь маркеров, реализованный в трех вариантах —алфавит­ ном, аспектном и нумерационном.

3.Список индикаторов, представленных в алфавитном варианте, но группам, в нумерационном порядке.

4.Список коннекторов —правых и левых.

5.Формулы выбора, ориентированные на формирование различ­ ных типов вторичных документов —в символьной форме и форме «по­ искового предписания». Перечень типовых формул выбора.

6.Программу цветовой разметки маркеров, индикаторов, коннек­ торов и ключевых слов.

7.Общий список лексических единиц, разбитый по 4 категориям.

8.Общую схему алгоритма анализа текста, выполненного на основе неключевой лексики (АНЛ). Частные схемы АНЛ, ориентированные па различные виды вторичных документов. Списки категорий слов, ориентированные на частные алгоритмы (АНЛ).

9.Алгоритм анализа текста на основе ключевой лексики (АКЛ).

10.Технологию экстрагирования текстов, включающую:

а) методику выявления высокоранговых (ключевых) слов в текстах документов для использования их в качестве «опорных пунктов» («смысловых вех») при выполнении операций фрагментирования и ав­ токонспектирования;

б) методики аннотирования и реферирования; в) методику фрагментирования («выращивания» минимальных ре­

левантных фрагментов); г) методику конспектирования;

д) перечень лексических единиц конспектируемого текста, сокра­ щаемых с помощью средства Word 2000 «Автозамена».

Рассмотрим подробнее, по пунктам, содержание каждого из техно­ логических документов.

1. Памятка о сущности индикаторного метода свертывания и его возможностях. (Этот пункт не подлежит здесь подробному рассмотре­ нию, поскольку содержание его рассматривается в общем контексте главы.)

«Лексический аппарат свертывания».

2. Словарь маркеров, реализованный в трех вариантах:

а) в алфавитном — перечень маркерных статей, включающих сам маркер, его синонимы и лексические сопровождения маркера.

Пример маркерной статьи:

Преимущество > а. Оценка предлагаемого варианта решения (ОцПВР) с. Достоинство

л.с. Иметь Заключаться Являться,

где а.— индекс названия аспектов, с.— синоним, л.с.—лексические сопровождения;

б) в аспектном маркерные статьи сгруппированы но аспектам сет­ ки I типа: ИВР, ОцИВР, ПП, ЦУ, ПВР, ОПВР, ОсПВР, ОцПВР, Р, В, Рек,

ОП,ЭЭ.

 

Пример: ПП > а. Актуальный

 

с. Важный

л.с. Делать

Основной

Заключаться

Существенный

Представлять

Главный

Становиться

 

Являться

 

Проблема

в) в нумерационном ряду —каждой маркерной статье присваивается двузначный номер-код, которым обозначаются все элементы данной статьи — синонимы и лексические сопровождения.

Алфавитный перечень маркеров (и индикаторов) выполняет спра­ вочно-контрольные функции —есть ли такой маркер в словаре, каково наполнение маркерной статьи (синонимы и лексические сопровожде­ ния), какой аспект идентифицирует; аспектный перечень — какие ас­ пекты идентифицируются теми или иными маркерами; нумерацион­ ный перечень —какие маркеры входят в состав той или иной формулы выбора.

Маркеры подразделяются, как мы знаем, на три группы: аннотативные, идентифицирующие обычно фразы, относящиеся к анпотативиым аспектам - ПП, ЦУ, ПВР (в формуле выбора следуют за М-1); ре­

феративные, идентифицирующие фразы, относящиеся к рефератив­ ным аспектам — ИВР, ОцИВР, ОПВР, ОсПВР, ОцПВР, В, Р, Рек, ОП, ЭЭ (в формуле выбора следует за М-И); фрагментирующие, идентифи­ цирующие фразы, входящие в самостоятельные фрагменты текста,—к примеру: Схемы, Конструкция, Оборудование, Материал, Метод, При­ нцип действия, Техническая характеристика, Экономическая эффек­ тивность, Расчет, Надежность и др.

3. Список индикаторов (И), реализованный в трех вариантах: а) в алфавитном;

б) по группам — акцентирующие (А), констатирующие (К), оценоч­ но-вероятностные, подытоживающие (П), противительные (Пр), пере­ фразирующие (Пер) и др. к примеру: итак, следовательно, существенно, важно, однако, несмотря, иначе говоря, очевидно и многие другие;

в) в нумерационном ряду —каждой индикаторной группе присваи­ вается двузначный номер —код, который приписывается всем индика­ торам данной группы.

Индикаторы —лексические единицы, выполняющие преимущест­ венно модально-идентифицирующие функции — не связаны четко с со­ держательными аспектами документа и выполняют в процессе экстра­ гирования вспомогательные функции.

4. Список коннекторов — лексических единиц, выполняющих функцию межфразовых связей. Коннекторы, напоминаем, подразделя­ ются на «левые» и «правые», первые (типа: последний, данный, выше­ приведенный, такой, этот, изложенный и др.) указывают на связь мар­ кированного предложения с предыдущим контекстом, вторые (типа: следующий, приводимый, рассматриваемый и др.) указывают на связь маркированного предложения с последующим контекстом).

Перечисленные элементы лексического аппарата предназначены для:

1)сплошной четырехцветной разметки текстов свертываемых доку­ ментов —один цвет для маркеров, второй —для индикаторов, третий — коннекторов, четвертый —ключевых слов;

2)составления формул выбора, ориентированных на экстрагирова­ ние различных видов вторичных документов;

3)использования в качестве обучающего и справочного пособия при разработке стратегии экстрагирования.

Ключевые слова (предметно-тематическая лексика) не входят в число элементов лексического аппарата свертывания (так называемая виетематическая, иеключевая лексика), а привлекаются эпизодически для решения некоторых задач свертывания (например, выращивания минимальных релевантных фрагментов, квазиконснектирования).

Лексический аппарат и технология свертывания ориентированы на решение трех групп задач:

1)формирование различных видов аннотаций и рефератов;

2)формирование различных самостоятельных фрагментов методом их выращивания, которые помимо самостоятельного значения (напри­ мер, различные виды рефератов-фрагментов), рассчитаны также на по­ лучение из них некоторых синтезированных документов типа дайджес­ тов, обзоров и квазихрестоматий (см. главу 5);

3)формирование различных видов конспектов (автоматизирован­ ных конспектов) как одного из средств самообслуживания пользовате­ лей.

Впервом случае процедура экстрагирования фраз выполняется за счет использования только неключевой составляющей лексического аппарата (т. е. маркеров, индикаторов и коннекторов), во втором и тре­ тьем случаях, помимо иеключевой лексики, в процедурах экстрагирова­ ния участвуют и ключевые слова.

5. Следующим важнейшим элементом технологии избирательного свертывания являются формулы выбора, ориентированные на экстра­ гирование и формирование на их основе различных видов документов. Формулы выбора представлены в двух вариантах —в символьной фор­ ме и в форме поискового предписания. В символьном варианте форму­ ла выбора содержит в себе следующие элементы: символы М-1, и/или М-П, и/или M-III, и/или И и К, организованные в виде фасета, и спи­ сочные порядковые номера маркеров и индикаторов в соответствую­ щих словарях. Например, символьные формулы выбора, ориентиро­ ванные на формирование типовых вторичных документов, могут иметь следующий вид:

а) краткие аннотации — М-1 2: И Ш (ПВР) —множество маркеров аннотативной группы, в частности аспекта ПВР (иод номером 2), мно­

жество индикаторов пусто; б) полные аннотации — М-1 2, 3, 13: И 5, 6, 8, 11, 22, 35 (ПВР, ЦУ,

ПП) — множество маркеров аннотативной группы, в частности аспек­ тов ПВР, ЦУ и ПП (под номерами 2,3,13), множество индикаторов иод номерами 5, 6, 8,11, 22, 35;

в) реферативные аннотации —М-1 2: М-П 5,6,8: И 1,9,18,23,29,34 (ПВР, ОпПВР, В, Р, Рек) - множество маркеров аннотативной группы под номером 2, множество маркеров реферативной группы под номера­ ми 5, 6, 8 и множество индикаторов под номерами 1,9,18 и т. д.

г) рефераты (одна из разновидностей) —М-П 6, 7, 8: И 9, 12, 31, 43 (ОнПВР, ОсПВР, В) - множество маркеров реферативной группы под номерами 6, 7,8 и множество индикаторов под номерами 9,12 и т. д.

д) рефераты-фрагменты — М-Ш 12: И 3, 5, 17: принцип действия — множество фрагментирующих маркеров под номером 12 и индикаторов под номерами 3, 5,17.

Если реферат-фрагмент, помимо формальных (неключевых) при­ знаков, должен включать в себя и признаки тематические (ключевые слова), что на практике чаще всего и бывает, то в формуле выбора до­ полнительно за знаком «двоеточие» вводятся необходимые ключевые слова. В данном случае формула выбора может иметь вид:

М-Ш 12: И 3, 5,17: вибраторы, пьезоэлектрические.

Таким образом, формулы выбора (в символьной форме) могут быть формальными и тематическими. Первые включают в себя множество элементов неключевой лексики, вторые —также и ключевые слова. В полном виде структура формулы выбора включает в себя множество маркеров —М-1, -II, -III (индексы групп аннотативных, реферативных и фрагментирующих), множество индикаторов (И), множество коннек­ торов (Кн) и множество ключевых слов (Кл).

Наиболее часто употребляемые формулы выбора образуют специ­ альный перечень типовых формул, ориентированных на формирование «типовых» вторичных документов. К этому перечню референт обраща­ ется на одном из первых этапов процесса экстрагирования —при фор­ мировании задания на экстрагирование, когда надо выяснить, сущест­ вует ли уже готовая (одна из типовых) формула выбора, соответствую­ щая задаче. В случае положительного ответа референт переходит к выполнению следующего этапа экстрагирования, в случае отрицатель­ ного —«подгоняет» к требованиям задачи одну из типовых формул вы­ бора либо формирует новую (которая может стать затем типовой в его перечне).

Естественно, что приведенный выше перечень формул выбора в за­ висимости от местных условий и задач может изменяться в сторону ли­ бо сокращения, либо увеличения его составляющих, однако этот пере­ чень достаточно универсален и валентен для достаточно быстрого «конструирования» на его базе новых формул выбора

Формула выбора в варианте «поисковые предписания» выглядит значительно более «громоздкой», так как включает все указанные под номерами лексические единицы, например,— наиболее краткий вари­ ант — для краткой аннотации (см. выше):

произвед-ен

метод

выше

анализир-уются

зависим-ость

статья

излаг-аться

нриснособл-ение

ниже

опис-ан

процесс

работа

привод-ится

схема

доклад

сообщение
эксперимент исследов-ание автор

разраб-отаи расчет рассмотр-ен способ сформул-ироваи модель анализ изобретение привед-еи

6. Программа цветовой разметки текста. В данном пособии эле­ менты лексического аппарата свертывания представлены в тексте ре­ ферируемого документа в виде слов, окрашенных в четыре цвета: крас­ ный —для маркеров, желтый —для индикаторов, синий —для коннек­ торов и зеленый — для ключевых слов. Соответствующая расцветка обеспечивается специальной «Программой цветовой разметки текс­ та»*, реализованной в виде макрокоманды Word’ а (макроса) на языке VBA (Visual Basic for Applications).

Программа размечает текст, выделяя четыре категории слов —соот­ ветственно каждую своим цветом. Списки категорий слов (словари маркеров, индикаторов, коннекторов) представлены в виде текстового файла в кодировке Windows (СР-1251). В этом файле сперва идет пер­ вая категория (маркеры), начинающаяся со слова с предшествующим знаком плюс; далее идут слова, составляющие эту категорию —каждое слово с новой строки, причем после корня (точнее после опознаваемой части) должен быть знак минус; окончание слова не участвует в сравне­ нии маркеров со словами документа. Пример:

+ актуальн -ый осиови -ой заключ -аться представл -ять являть -ся

Вторая категория (индикаторы) оформляется аналогично первой. Третья категория (коннекторы, как правые, так и левые) содержит не части слов, как первая и вторая, а целые слова. Четвертая категория (ключевые слова) может включать пары слов. Например: железная до­ рога, библиографическая информация, струйные принтеры и т. и.

Принцип сравнения слов документа со словами из списка первой и второй категорий состоит в совпадении начала слов документа с той ча­ стью слов из списка, которая предшествует знаку минус в списке. Для третьей категории сравниваются целые слова, а для четвертой —пары слов.

Разработка «Программы цветовой разметки» принадлежит И. 3. Цейтлину.

Каждое слово в файле списка располагается на новой строке с лю­ бой позиции. Позиции можно использовать для логического выделе­ ния или объединения слов, например, по понятиям.

7. Общий список лексических единиц. Для реализации операции машинной цветовой разметки текстов документов «канонические» сло­ вари лексического аппарата в их трех версиях трансформированы в списки по категориям, удовлетворяющие требованиям рассмотренного выше макроса:

в списке первой категории словарь маркеров, представляющий собой определенным образом упорядоченный перечень маркерных ста­ тей, включающих заглавный маркер, его синонимы, их лексические со­ провождения, представлен в машинном варианте с указанной размет­ кой в виде сплошного алфавитно-нумерационного списка (в соответст­ вии с требованиями программы);

в списке второй категории слов перечислены индикаторы —тоже

вих алфавите и с соответствующей разметкой; аналогично этим требо­ ваниям представлена лексика и последних двух категорий.

Ключевые слова в машинном словаре не фиксируются, поскольку являются «величиной переменной» и каждый раз вводятся в поисковое предписание в соответствии с тематикой подготовляемого вторичного документа (самостоятельный фрагмент, автоматический конспект и т. п.). Таким образом, при иетематическом свертывании четвертая кате­ гория слов в формуле выбора есть «пустое множество».

Цветовая разметка текста как операция, обеспечивающая предредактирование в процессе экстрагирования «релевантных» фраз, осуще­ ствляется в двух режимах:

полная расцветка с использованием всего объема неключевой лексики при экстрагировании фраз, не ориентированном на определен­ ную формулу выбора — лишь бы получить некий вторичный документ, в большей или меньшей степени изоморфный первичному документу, либо как операция, предваряющая конспектирование;

2) частичная расцветка текста с использованием лишь только той лексики, которая включается в определенную формулу выбора, т. е. при направленном избирательном свертывании, ориентированном на фор­ мулирование определенной разновидности вторичного документа.

Приведенная выше система цветовой разметки документов необхо­ дима для реализации двух алгоритмов смыслового анализа текстов, ос­ нованных на использовании неключевой и ключевой лексики.

8. Алгоритм неключевой лексики (АНЛ). Реализация этого алго­ ритма анализа текста предполагает использование маркерной, индика­ торной и коннекториой разметки текста с целью выделения и экстраги­ рования фраз, относящихся к различным смысловым (содержатель­ ным) аспектам документа.

Алгоритм неключевой лексики включает в себя несколько «сеток», т. е. самостоятельных перечней вопросов, ответ на которые в тексте до­ кумента позволяет референту выделить так называемые релевантные фразы, определенная совокупность которых и образует тот или иной, вторичный документ определяемый формулой выбора. Сетки разделя­ ются на универсальные (общие), ориентированные на экстрагирование статей, патентных описаний и др., независимо от их отраслевой и функ­ циональной направленности, т. е. отражающие логическую, аспектную, структуру документа, и специфичные, частные, сетки, отражающие в себе логику той или иной отрасли знания или, к примеру, структуру технологического процесса.

Пример универсальной сетки (перечня содержательных аспектов, характерных для научно-технических статей и патентных описаний) приведен в 3.2.3.

Каждый из этих аспектов идентифицируется некоторой совокупно­ стью маркеров, например: аспект ПП (постановка проблемы) идентифи­ цируется маркерами Попытка делается (предпринимать), Внимание привлекается; или а. ПВР (предлагаемый вариант решения) идентифи­ цируется маркерами Предлагаться (анализироваться, осуществляться, рассматриваться и др.), Конструкция (вариант, расчет, способ, методи­ ка и др.) и т. д.

Существуют, как уже упоминалось, и другие «сетки», определяю­ щиеся характером описываемого в документе объекта —описывается ли оборудование, конструкция, схема, материал, процесс...

Алгоритм анализа текста, основанный на неключевой лексике, отно­ сится к тем компонентам технологической документации, который ре­ ферент (пользователь), осуществляющий процедуру экстрагирования, должен знать на память. Впрочем, на первых этапах освоения методики экстрагирования референт может вызвать в любой момент на экран мо­ нитора файл со структурами данного алгоритма и обновить их в памяти (так же как и другие документы методики).

9. Алгоритм анализа текста, основанный на ключевой лексике (АКЛ). Назначение этого алгоритма —«включение» у референта меха­ низма ориентации в смысловом пространстве текста с целью определе­ ния основного смысла как отдельных фраз и абзацев экстрагируемого документа, так и всего текста в целом, но прежде всего —маркирован-

пых фраз. Работа этого алгоритма основана на цветовом выделении в тексте так называемых «опорных пунктов» («смысловых вех») *, роль которых выполняют наиболее значимые для данного текста ключевые слова. Возникает, естественно, вопрос, каким образом из значительного многообразия ключевых слов, встречающихся в документе, определить «наиболее значимые», выполняющие функцию «смысловых вех»? За­ дача эта имеет но крайней мере два решения: 1) построение частотного словаря, ориентированного на конкретный анализируемый (свертывае­ мый) текст, с использованием текстового процессора Word и СУБД Access, что является относительно сложной процедурой, встраиваемой в методику «Индикатор», и 2) использование «побочного продукта» функции Word 2000 — «Автореферирование» в виде перечня высокоранговых ключевых слов, на основе которых функция определяет и включает в автореферат наиболее значимые (с точки зрения дайной функции) предложения реферируемого документа.

Как в первом, так и во втором случаях получаются упорядоченные но убыванию частоты списки ключевых слов. Необходимый порог зна­ чимости определяется референтом (пользователем) эмпирическим пу­ тем — в зависимости от объема документа и количества выявленных машиной ключевых слов.

Полученные тем или другим способом высокоранговые ключевые слова включаются в соответствующую формулу выбора и наряду с не­ ключевой лексикой переносятся в четвертую категорию машинного списка лексических единиц, участвующих в экстрагировании.

Если включение алгоритма неключевых слов в процедуру автомати­ зированного свертывания является обязательным элементом процесса аналитико-синтетической переработки информации, т. е. процесса по­ лучения всего спектра вторичных документов, то включение алгоритма ключевых слов —только для определенного ее вида, прежде всего для получения тематически определенных (заранее заданных) рефератовфрагментов и индивидуальных конспектов документов.

10. Технология экстрагирования текстов. Располагая перечислен­ ными выше документами, референт имеет возможность приступить к выполнению следующих операций автоматизированного свертывания текстов. Эти операции объединяются в три этапа —подготовительный, основной и заключительный.

* Функция «смысловых вех» достаточно подробно освещается в теории конспектиро­ вания, быстрого чтения и аналогичных способов анализа текста.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]