- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
Глава 4. МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ ТЕКСТОВ
4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
Пожалуй, ни в каких областях своего применения компьютерные технологии не встречаются с такими трудностями, как при решении се мантических задач. Частным, но наиболее распространенным случаем такого приложения является автоматизация процессов аналитико-син тетической переработки информации (компьютерное свертывание/ развертывание), к числу которых относятся индексирование, анноти рование, реферирование, конспектирование, фрагментирование, пере вод и другие формы информационного анализа и синтеза. Трудности, обусловлены прежде всего сложностью, а иногда и невозможностью формализации и алгоритмизации мыслительных процессов, сопровож дающих указанные разновидности анализа и синтеза в их «ручном», традиционном, вариантах.
В чем тут принципиальная сложность? Известно, что в общем слу чае формализация — это представление внутреннего содержания во внешней форме: внешняя форма, относясь к уровню явлений, опреде ляется сущностью содержания, т. е. внутренней формой материального объекта. Это в общем случае. В сфере информационных процессов (знания) отношение внешней и внутренней форм более сложно. Внеш няя форма, т. е. знаковая, материальна и объективна, внутренняя же форма, т. е. смысл, идеальна и субъективна, а объективностью обладает л и ш ь в т о м с м ы с л е , что является отражением объективных, ин
вариантных, общих отношений материального мира. В этих условиях формализация информационных процессов сводится к тому, чтобы изыскать в форме, т. е. плане выражения (в его лексике, грамматике, структуре, архитектонике и т. д), элементы, через которые можно было бы выразить план содержания (смысл, семантику) того или иного текс та и тем самым осуществить обработку (преобразование) семантичес кой информации без обращения к смыслу данного текста. Предполага ется, что данная процедура должна привести к результату, б л и з к о - м у по своему качеству к результату, получаемому (в общем случае) при содержательной обработке тех же текстов. Никогда (опять же в об щем случае и в ближайшем будущем) качество машинной обработки информации не будет выше качества интеллектуальной обработки, по скольку языки и алгоритмы, с помощью которых «мыслит» машина, всегда будут беднее естественного языка и алгоритмов, которыми мыс лит человек. Однако формализация открывает широкие возможности применения для обработки текстов компьютерной техники, что дает се рьезный эффект с точки зрения скорости и единообразия обработки, а главное — экономии материальных средств.
Работы в области автоматизации семантических процессов ведутся уже около полувека, практически с появлением первых же ЭВМ, и за это время пережили несколько периодов бурных надежд и горьких раз очарований.
Особую эйфорию пережили работы в области м а ш и н н о г о п е р е в о д а , но «упершись» в метафоричность полисемичных языков, специалисты поняли всю сложность скорого решения этой проблемы. Сейчас существует уже целый ряд автоматов-переводчиков дву- и бо лее язычных. Большой популярностью пользуется электронный пере водчик Promt 98, разработанный петербургской фирмой ПРОМТ, од нако качество этих переводов пока еще не сопоставимо с качеством ин теллектуальных переводов. Однако и это — значительное достижение: хотя качество любых семантических процессов, достигнутое с помо щью ЭВМ, «всегда хуже», тем не менее автоматизация избавляет от ог ромных затрат человеческого труда, времени и нервов.
Большие успехи достигнуты в области и н д е к с и р о в а н и я (и со ответственно — информационного поиска, поскольку это ключевая операция поискового процесса). Но эпоха дескрипторных языков, на которые возлагались большие надежды как на наиболее семантически сильные информационно-поисковые языки (ИПЯ), как уже указыва лось в 2.1, постепенно сходит «на нет». Рожденные для обслуживания автоматизированных информационно-поисковых систем (ИПС), дескрипторные языки но мере совершенствования и развития средств ком-
пыотерной техники и программного обеспечения уступили свое лиди рующее место языкам ключевых слов (но сути, естественным языкам), поскольку оказались менее конкурентоспособны из-за плохой их тема тической совместимости. Однако недоучет в языке ключевых слов па радигматических отношений приводит при поиске к резкому сниже нию качественных показателей работы ИПС.
К третьему направлению автоматизированного свертывания отно сятся работы но автоматическому р е ф е р и р о в а н и ю . Это направ ление занимает как бы промежуточное положение между минимальным уровнем свертывания —переводом и максимальным —индексировани ем, однако оно по своему характеру очень специфично, поскольку сво дится к экстрагированию (извлечению) из документов минимальных релевантных фрагментов, некоторая совокупность которых и образует широкий спектр вторичных документов —различные виды аннотаций, рефератов, реферативных аннотаций, самостоятельных фрагментов, конспектов и их синтезированных производных —реферативных ука зателей, дайджестов, реферативных обзоров, квазихрестоматий и пр. Все эти вторичные документы, являющиеся результатом аналитико синтетической переработки первичного документального потока, рас считаны па удовлетворение как частных (индивидуальных), так и типо вых (потенциальных) информационных потребностей различных кате горий специалистов науки, техники и производства.
История применения вычислительной техники для реферирования насчитывает уже более сорока лет и связана с именами таких исследо вателей, как Г. П. Лун, Г. Эдмунсон, В. Е. Берзон, И. П. Севбо, Э. Ф. Скороходько, Д. Г. Лахуги, В. П. Леонов, Р. Г. Пиотровский и многие дру гие. За эти годы были выработаны многочисленные подходы к реше нию данной проблемы, которые достаточно четко подразделяются на два направления —квазиреферирование, основанное на экстрагирова нии из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокуп ность которых образует некоторый экстракт (квазиреферат), и вто рое —собственно автоматическое реферирование, основанное на выде лении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (ре фератов), в большей или меньшей степени изоморфных первичным до кументам (или их частям). Второе направление более перспективное. В настоящее время представлено экспериментальными исследованиями и до широкой реализации еще не дошло. Квазиреферирование обладает той особенностью по сравнению с собственно реферированием, что ос новывается на анализе поверхностно-синтаксических отношений в тек
сте, которые выражены в нем и не требуют обращения к глубинно-се мантическим процессам, изученность которых еще явно недостаточна для описания имманентных свойств любого текста.
В рамках квазиреферироваиия в свою очередь обычно выделяют три основных направления:
• статистические методы, основанные на использовании статис тических параметров для оценки информативности различных элемен тов текста (слов, предложений...). Они исходят прежде всего из показа теля частоты встречаемости слов в тексте: в результате ранжирования лексики в том или ином документе определяют слова с высоким рангом и их сочетаемость в различных фразах; по этим показателям и оценива ют информативность этих фраз.
Статистические методы берут начало от работ американского уче ного Г. П. Луна, который в 1958 г. получил первый машинный реферат, основанный на допущении, что, чем чаще встречается слово в тексте, тем выше его информативность, что, чем больше часто встречающихся слов оказывается рядом, тем более существенную информацию содер жит предложение. Он предложил формулу для отбора того или иного предложения в будущий реферат:
где г\ — «вес» предложения; р — количество высокочастотных слов; q — количество слов с высокой и низкой частотой.
Идеи Луна дали толчок последующим исследованиям, основанным на статистическом анализе текстов. Так, в одном из них «вес» предло жения определялся следующим образом: пусть некое (одно из) предло жение имеет вид
нсннснннснн
где Н — несущественные слова, С — слова, включенные в словарь часто встречающихся слов данного текста. Существенные слова (С) оцениваются в 1 балл, а несущественные слова (Н), расположенные ме жду ними, в (/^ )п баллов, где п — число несущественных слов (Н) меж ду существенными словами (С). Общий смысловой вес приведенного
выше предложения составляет:
1 + 1/4 + 1 + 1/8 + 1 = 33/ 8.
Затем для определения объема реферата общее число отобранных предложений (если их не более 200) делилось на 10, и таким образом объем реферата составлял 10 % от общего объема документа. Пред ложения с большим весом подлежали включению в реферат, а со сред-
мим —помечались как резервные. Нижний предел устанавливался экс периментально.
Главным недостатком такого подхода было то, что при использова нии только частотного критерия полностью игнорируются смысловые связи между словами. При статистическом реферировании объем и ка чество рефератов полностью зависят от статистики текста, а предложе ния, содержащие наиболее важную информацию (например, выводы в научных статьях, патентные формулы в патентных описаниях) могут быть вообще не выделены.
Другое направление статистических методов использует для опре деления информативности фраз различные типы повторов: всем пред ложениям присваивается функциональный вес, определяемый числом слов данного предложения, связанных со словами других предложений, и на основе выбранного критерия (порога) осуществляют экстрагиро вание фраз с наибольшими функциональными весами.
• позиционные методы основываются па предположении о том, что признаком высокой информативности элемента текста (предложения) является его пространственно-позиционная характеристика, т. е. место предложения по отношению к структуре, задаваемой автором. Это предположение согласуется с мнением лингвистов об особых семиоти ческих и психофизических потенциях начала и конца текста, постоян ных независимо от типа или жанра документа. Однако, как показали исследования, все информативные предложения являются первыми в абзацах, по не все первые предложения абзацев — информативные. На учный текст представляет собой сложное синтаксическое образование, в котором абзац сам является лишь элементом образования более высо кого порядка — сунерсинтаксического целого, текстового фрагмента. В таком фрагменте текста информативно (автосемантично) только его первое предложение, первые же предложения абзацев, входящих в этот фрагмент, зачастую неинформативны (синсемантичны). Эта синсемантичность первых предложений абзацев основывается на факте присут ствия в данном предложении полного повтора словоформы имени су ществительного, содержащегося в первом предложении предыдущего абзаца, притяжательных, указательных или личных (3-го лица) местои мений, прилагательных и причастий, указывающих на связь с предыду щим контекстом.
По литературным данным, более или менее удовлетворительно по зиционные методы «работают» па строго структурированных докумен тах типа стандартов, патентных описаний и т. п., в остальных случаях применяются — в том числе в экспериментальных условиях —лишь в
сочетании с другими методами, поскольку в чистом виде не обладают необходимой репрезентативностью результатов.
• индикаторные методы, основанные на функциональной иденти фикации фраз первичного документа с помощью индексации их специ альными словами — маркерами, индикаторами и коннекторами, обра зующими лексический аппарат данного способа экстрагирования.
До уровня «промышленной» реализации из перечисленных методов дошли лишь статистические методы. Так, в широко известном тексто вом процессоре Microsoft Word 2000 представлена функция «Авторе ферат», которая обеспечивает формирование серии рефератов из фраз, наиболее информативных с точки зрения вхождения в них наиболее высокоранговых слов. При этом пользователь может устанавливать размерный порог свертывания первичного документа от 50 до 10 % его объема (см. приложение 3). Авторы программного обеспечения преду преждают пользователей: полученный в результате их метода текст ре ферата является лишь «грубым наброском» и его, как правило, прихо дится дополнять и править. Последнее не самое отрицательное в этом методе, так как в принципе почти каждый квазиреферат подлежит не которой стилистической «доводке», хуже другое: очень часто присутст вие во фразе (фразах) высокорапговых слов не обеспечивает ее высо кую информативность, а совокупность фраз — смысловое единство нового текста. Кроме того, полученный этим методом вторичный доку мент не имеет функциональной ориентированности, т. е. это не аннота ция, не реферат, не фрагмент и т. д. Это типичный «квазиреферат» — некоторое отдаленно изоморфное текстовое образование. Об избира тельности свертывания здесь речи быть не может.
Тем не менее от статистического метода реферирования ни в коем случае нельзя отказываться; он должен занять свою нишу в общем рус ле автоматизированного свертывания, но нужно при этом достаточно четко определить видовую принадлежность документов, наиболее чув ствительных к данному методу, и определение этой чувствительности также должно быть реализовано формализованным (т. е. машинным) способом. Область, в которой «статистические» рефераты могут полу чить широкое распространение,—это автоматическое индексирование.
Индикаторные методы в отличие от статистических и позиционных способов квазисвертывания располагают возможностью функциональ ной идентификации первичного документа, его аспектного структури рования с помощью применяемого для экстрагирования лексического аппарата. Работы в русле этого направления велись в течение ряда лет (в 80-е — начале 90-х годов XX в.), в том числе коллективом разра
ботчиков Ленинградского государственного института культуры им. Н. К. Крупской и ВНИИ «Информэлектро».
Суть индикаторного метода заключается в использовании специ альных словарей — маркеров, индикаторов и коннекторов (лексичес кий аппарат свертывания), насчитывающих около тысячи лексических единиц так называемой неключевой, внетематической, лексики, и фор мул выбора, отражающих требования к различным видам вторичных документов для машинного экстрагирования фраз, относящихся к раз личным содержательным аспектам документов (чаще всего научно-тех нических статей). Совокупность таких фраз, определенным образом упорядоченных, и образует различные виды вторичных документов — основного средства информационного обслуживания.
В основе идеи свертывания источников информации на базе неклю чевой лексики лежит представление о том, что фразы текста, особенно «делового», научно-технического, выполняют не только внетекстовую функцию (фраза как отражение некоторой экстралингвистической ре альности —о чем и что говорится), но и внутритекстовую, грамматико стилистическую функцию (фраза как способ отражения этой экстра лингвистической реальности в виде некоторой целостной композиции, имеющей свою логику, структуру, архитектонику, обладающей опреде ленной модальностью —как, каким образом говорится). Такая двойст венность функции фраз письменного текста обусловливается, в частно сти, необходимостью перехода речи от многомерного плана содержания к одномерному, линейному, плану выражения, а также отсутствием не посредственно в процессе коммуникативного акта автора сообщения. Отсюда применение на письме определенных синтаксических конст рукций (фреймов, по М. Минскому), введение в речь словесных клише, штампов, уточнений, связок и прочих метаинформативных элементов.
Таким образом, большинство фраз текста не только номинативны, но и функциональны, причем определенным синтаксическим конст рукциям, «выполненным» из лексики внетематического (неключевого) слоя, соответствуют определенные типы фраз, относящиеся к различ ным содержательным аспектам или выполняющие модально-оценоч ные функции. Особенностью словарей, составленных из иеключевого слоя лексики, в отличие от словарей ключевой лексики (в частности, дескрипториых словарей) является быстрая насыщаемость (закры тость) первых и практическая «незакрываемость» вторых.
К элементам лексического аппарата свертывания, применяемым в процедурах индикаторного метода, относятся маркеры, индикаторы и коннекторы.
1. Маркеры (им принадлежит основная роль) —это отдельные сло ва или словосочетания, обеспечивающие однозначную идентификацию
фраз, принадлежащих к различным смысловым (содержательным) ас пектам текста. Существуют два типа содержательных аспектов (их на зывают иногда «сетками»): первый тип, как уже известно нам из 3.2.3, отражает структуру (логику) вида документа (например, статьи, па тентного описания, методического пособия и т. д.), второй тип — струк туру (логику) той или иной области знания. «Сеток» второго типа мо жет быть достаточно много — все зависит от специфики знания.
Словарь маркеров обычно функционирует в двух вариантах — ал фавитном и поаснектиом: в алфавите маркерных статей и этих же ста тей, сгруппированных но отдельным содержательным аспектам. Мар керная статья включает в себя ядериый элемент, его синонимы и лекси ческие сопровождения ядерного элемента (и их синонимы). Ядерное слово выделено полужирным, например:
Анализ — а. П ВР + В |
Последний — а. ПП |
|
с. Вычисления |
л.с. Выявлять |
с. Последнее время |
Данные |
Д оказат ь |
Настоящее время |
Результаты |
Позволять |
Прежде |
Измерения |
Показывать |
л.с. Н аблюдаться |
Испытания |
Предлагат ь |
Отмечаться |
Исследования |
и т. д. |
Появляться |
Нами |
|
Существовать |
и т. д. |
|
|
Примечание: а.—аспект, на который «работает» маркер; с.—синонимы; л.с.—лексическое сопровождение ядерного элемента.
Пример: «Анализ... показывает», или «Данные... позволяют», или «Нами...
предложен» и т. д.; «В настоящее время существует» и т. д.
Маркеры в свою очередь подразделяются на три группы: маркеры, идентифицирующие фразы, относящиеся к аннотативным аспектам со держания — ПВР, ПП, ЦУ (М-1), реферативные маркеры, ориентиро ванные на экстрагирование фраз, включаемых в рефераты — ИВР, ОцИВР, ОнПВР, ОсПВР, Рек, В, Р (М-П) и фрагментирующие марке ры, предназначенные для экстрагирования фраз, включаемых в рефера ты-фрагменты —другая сетка (M-III).
К числу фрагментирующих маркеров относятся, например: Аппара тура, Взаимосвязь, Изготовление, Изделие, Измерение, Исследование, Конструирование, Метод (методика), Оборудование, Оценка, Прибо ры, Принцип действия, Производство, Расчет, Структура, Схема, Тех нология, Эксперимент, Эксплуатация и т. и. Часть фрагментирующих маркеров пересекается с аинотативными и реферативными маркерами, но используется в иных формулах выбора. (В более развернутом виде словарь маркеров см. в Приложении 2.)
И н д и к а т о р ы — лексические единицы, призванные выполнять преимущественно модально-оценочные функции, с содержательными аспектами четко не связаны, а отражают отношение автора к рассматри ваемому в документе вопросу. Они подразделяются на подытоживаю щие, акцентирующие, констатирующие, оценочно-вероятностные, ил люстрирующие, уточняющие, условные и др. Например: ит ак, следова
тельно, следует подчеркнуть, важным представляется, существенным являет ся, главное в и многие другие. Индикаторы не являются ведущим средством экстрагирования фраз, а имеют вспомогательное значение, дополняют и уточняют формулу выбора — поисковое предписание (ПП) — в процедурах свертывания (см. Приложение 2).
К о н н е к т о р ы — лексические единицы, обеспечивающие меж фразовые связи. Известно, что законченным смыслом (автосемаитичностыо) чаще всего обладают не отдельные предложения, а некоторая их совокупность —минимальный релевантный фрагмент. Нередки слу чаи, когда маркированное предложение является синсемантичным —в нем предмет рассмотрения заменен местоименным словом или слово сочетанием. В этом случае для устранения смысловой неполноценнос ти (сиисемаитичпости) фразы к нему необходимо присоединить вышеили нижестоящую фразу (или фразы). Функцию сигнала о смысловой неполноте предложения и выполняют коннекторы, которые разделяют ся на левые, отсылающие к вышестоящей фразе (аналогичный, данный,
этот , такой, описанный, изложенный и ми. др.), и правые, уточняющие, добавляющие (более того, вместе с тем, кроме того, в частности, тем самым и др.), требующие присоединения нижестоящей фразы.
Различают, как известно из 3.2.1.2, две разновидности коннекторов: анафорические (безоценочные) и логико-смысловые (оценочные). Первые являются заместителями антецедента в предложении, характе ризуют его смысловую неполноту и всегда выполняют в нем роль того или иного члена предложения и функцию межфразовой связи. Вторые (логико-смысловые) в структуру предложения не входят, но наряду с функцией межфразовой связи исполняют роль функциональной иден тификации предложения. Именно поэтому многие логико-смысловые коннекторы часто «переводятся» в разряд индикаторов как их разно видность.
Перечисленные выше элементы лексического аппарата реализуют ся в процессе свертывания с помощью ф о р м у л в ы б о р а текста. В них в символьной форме фиксируются элементы лексического аппара та, отвечающие требованиям экстрагирования фраз для различных ви дов вторичных документов. Таким образом, структура (схема) форму лы выбора, организованная но фасетному принципу, включает в себя
последовательность маркеров и индикаторов, соответствующих моде лям различных видов вторичных документов (М I: М II: МШ: И: К).
Так, например, формула выбора, соответствующая модели краткой аннотации, должна включать в себя маркеры, ориентированные на ас пект «Предлагаемый вариант решения» (ПВР), формула выбора пол ной аннотации — маркеры, ориентированные на аспекты ПВР, ЦУ и ПП и констатирующие и обобщающие индикаторы (в случае необходи мости); реферативной аннотации — на ПВР, ОцПВР, В, Р, РЕК и оце ночные, сравнительные, обобщающие, констатирующие и результи рующие индикаторы (в случае необходимости) и т. д. Соответствую щие им формулы выбора в символьной форме будут иметь вид:
M I - 2 , 1 6 , 18,28: И - 1
М I — 2, 8,13,16, 29,37: И - 1 , 3
М I - 2, 16,18, 28: М II - 4, 7,25, 31, 32: И - 1, 3,4, 5 ,8,
где М I, М II, М III —соответственно группы аннотативиых, реферативных и фрагментирующих маркеров, И —символ индикатора; цифры, идущие за маркерами и индикаторами, обозначают порядковые номера лексических еди ниц по соответствующим словарям (индикаторы имеют факультативное значе ние, ими варьируют в процессе итерационного поиска в зависимости от проме жуточных результатов).
Ниже приведены примеры рефератов-экстрактов.
Пример 1
Реферат-экстракт, полученный методом индикаторного свертыва ния, в сопоставлении с рефератом из реферативного журнала ВИНИТИ (2И118. Анализ магнитной цепи асинхронного двигателя) *.
Реферат-экстракт (без постредактирования) |
Реферат из РЖ |
5. В наст оящ ей работе для исследования |
Для исследования магнитной це |
магнитной цепи использована аппроксима |
пи использована аппроксимация |
ция намагничивания стали: Н = bB+ashk В |
кривой намагничивания стали |
56. Изложенный метод позволяет осуще |
вида Н = bB+ashk В (здесь при |
ствлять расчет насыщенной магнитной це |
бавления линейной части улуч |
пи асинхронного двигателя в случае, если |
шают аппроксимацию при ма |
напряженность магнитного поля в ярме |
лых индукциях). Результаты |
статора пренебрежимо малы. |
анализа позволяют рассчиты |
70. Полученные вданной работерезул ьт а |
вать намагничивающий ток и |
ты применяются для анализа и расчета |
временные гармоники насыщен |
магнитной цепи насыщенных асинхрон |
ных AM, в первую очередь AM |
ных машин малой мощности серии 4А. |
малой мощности серии 4А. |
* Здесь и в примере 2 цифра перед фразой — ее порядковый номер в первичном доку менте; курсивом выделены маркеры.
Пример 2
Реферат-эктракт статьи «Лак для термореактивной изоляции элек трических машин». Формберг М., Белкина Т. М., Лушпикова М. Н. «Лакокрасочные материалы и их применение».
Экстрагируемое предложение и его маркер |
Аспект |
4. Составы на основе эпоксидных смол обеспечивают эти свойства и |
ОцИВР |
потому нашли широкое применение вданной области («Шаг назад» |
|
на основе коннектора «эти») |
|
3. Свойства связующего определяют качество изоляции из пропи |
ИВР |
танных лент: монолитность, механическая прочность и эластич |
|
ность. |
|
6. Ниже излагают ся результ ат ы работ по созданию оптимальной |
ПВР |
рецептуры этого лака («Шаг назад» на основе коннектора «этого»). |
|
5. Одним из таких связующих является новый эпоксидно-полиэ |
ПВР |
фирный лак ПЭ-970, изготовляемый на основе эпоксидной смолы и |
|
трифункционалыюй эфирокислоты —триадипииата триметилол- |
|
пропаиа (3). |
|
7. И звест но, что свойства композиции на основе эпоксидных смол |
ИВР |
во многом зависят от природы отвердителя («Шаг вперед» на осно |
|
ве коннектора «так»). |
|
8. Т а к, кислые полиэфиры на основе алифатических кислот и спир |
ИВР |
тов дают эластичные составы. |
|
14. Нами изуче7ю влияние соотношения карбоксильных и эпоксид |
ПВР |
ных групп на механические свойства, термическую стабильность и |
|
электрические характеристики связующего состава. |
|
17. Для оценки механических свойств полимеров были изучены ре |
ПВР |
лаксация напряжения (определяли по методике, описанной ранее |
|
(5), на приборе ППР-50) и ударная эластичность (по отскоку шари |
|
ка на приборе ЭПР (5)) в зависимости от температуры. |
|
25. В последнем состоянии полимер II характеризуется меньшей ве |
ОсПВР |
личиной ударной эластичности, чем полимер I, что свидетельству |
|
ет о его большей эластичности. |
|
26. Кроме того, у полимера II температура разрушения выше, |
ОсПВР |
что показывает его большую стойкость к ударным нагрузкам в вы |
|
сокоэластичном состоянии. |
|
33. Эти данные также свидетельствуют о большей эластичности и |
ОсПВР |
гибкости полимера II. («Шаг назад» на основе коннектора «эти»). |
|
Экстрагируемое предложение и его маркер |
Аспект |
32. Если принять первоначальную нагрузку а за 100 %, то значения |
ПВР |
о для полимеров I и И составляют соответственно 71,3 и 11,5 %, а их |
|
отношения будут равны 0,713 и 0,115. |
|
36. Полученныерезульт ат ы говорят о том, что соотношение эпок |
Р |
сидных и карбоксильных групп в полимере действительно влияет |
|
на механические свойства; изменяя это соотношение, можно повы |
|
шать или понижать его эластичность, гибкость и механическую про |
|
чность («Шаг вперед» на основе коннектора «вместе стем») |
|
37. В месте с тем соотношение функциональных групп практи Р чески нс меняет термической стабильности полимеров.
41. Полученные данные позволили разработать рецептуру нового свя Р зующего на основе полимера II —лака ПЭ-970 (6,7).
45. Высокие электрические и механические свойства лака обеспечи ОцПВР вают получение гибких, эластичных лент, пригодных для термореактивпой изоляции высоковольтных электрических машин напря жением до 6 кВ.
* Разрядкой выделены коннекторы.
Реферат из РЖ ВИНИТИ2И44, на туже статью — Лак для термо - реактивной изоляции электрических машин.
(Предложения в реферате искусственно разбиты на абзацы).
1. Приводятся свойства клеящего термоактивного лака для лент на основе слюдяных бумаг, изготовленного с применением эпоксидной смол ы
итриадипината триметилолпропана (отвердителя).
2.Высокое содержание функциональных групп (ФГ) предопределя - ет высокую термореактивность связующего в ленте.
3.Свойства лака могут варьироваться в зависимости от соотноше - ния ФГ эпоксидной смолы и эфирокислоты.
4.Сравниваются механические, термические и электрические св-ва полимеров при соотношении ФГ 1:1 (1) и 1 :2 (2).
5.Второй полимер более эластичен, более стоек к ударным нагруз - ком, более механичен и электро прочен, чем 1-й.
6.Соотношение ФГ не изменяет термин, стабильности полимеров.
7. ^ Лак ПЭ-970 на основе второго полимера высыхает в пленке при 150 С за 30—40 мин, в толстом слое за 8—10 ч, термоэластичность пленки при 150 С — 200—250 ч. Электрическая прочность при 20±5 °С и 130±2 °Ссоответственно 8 0 -9 0 и 6 0 -70 кВ/мм.
S. Л ак используется для лент, применяемых для термоактивной ЭИ до 6000 В .
На основе полученной по относительно полному предписанию (ал горитму) з а г о т о в к и реферат-экстракта можно составить несколько вторичных документов различной степени свернутости (как, впрочем, и несколько рефератов на основе интеллектуального реферирования первоисточника, рефератов, отличных от опубликованного в РЖ). Дос таточно информативной будет реферативная аннотация, составленная только на основе трех экстрагированных предложений (5, 6, 45-е):
И злагают ся результ ат ы работ ы по созданию оптимальной рецеп т уры эпоксидно-полиэфирного лака П Э-970, изготовленного на основе эпоксидной смолы и трифункциональной эфирокислоты — триадипината триметилолпропана.Высокие электрические и механические свойст ва лака обеспечивают получение гибких, эластичных лент , пригодных для термореактивной изоляции высоковольтных электрических машин напряжением до 6 кВ.
Эту реферативную аннотацию можно при желании развертывать путем включения в нее дополнительных предложений из заготовки.
Сравним полученную заготовку с рефератом из РЖ.
1. Заготовка включает 16 предложений, реферат из РЖ —8. Если исключить 4 экстрагированных предложения, относящихся к блоку 1 (ИВР), который практически не отражается в реферативном потоке РЖ, то объем заготовки сократится до 12 предложений. Являются ли оставшиеся 4 предложения (но сравнению с 8 в реферате из РЖ) избы точными (шумовыми), судить трудно, так как они содержат существен ную информацию.
2.Из 8 предложений реферата РЖ только 2 (2-е и 7-е) отсутствуют
взаготовке, при этом 7-е предложение носит фактографический харак тер. Сведения из остальных 6 предложений реферата РЖ на большем или меньшем уровне перефразирования находятся в заготовке рефера та-экстракта. Таким образом, рассматриваемые рефераты вполне срав нимы. Однако, как уже указывалось, сопоставлять между собой рефе раты одного и того же документа —процедура достаточно рискованная, поскольку слишком велик здесь прагматический момент, тем более сложно сопоставлять рефераты и квазирефераты. Четкими объектив ными критериями для этой процедуры пока не располагают. Более ре альным является сопоставление между собой аннотаций (естественно, также па один и тот же документ), так как аннотацию (в отличие от ре ферата) можно рассматривать как более или менее изоморфную модель
первичного документа.