- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
4.Клиническая картина.
5.Дифференциальная диагностика.
6.Показания к лечению.
7.Лечение.
8. Отдаленные результаты лечения.
9. Сопутствующие заболевания.
10. Профилактика.
11. Выводы и т.п.
Для документов — статей, каталожных описаний — посвященных, например, изложению технологического процесса, аспектная сетка бу дет иметь вид:
1. Сущность технологического процесса.
2. Последовательность отдельных технологических операций.
3.Объект, подвергавшийся обработке.
4.Применяемое оборудование и инструмент.
5.Результаты процесса, качество и свойства полученных изделий.
6.Область применения процесса.
Одним словом, аспектная структура сеток второго типа определяет ся характером описываемого в документе объекта — описывается ли оборудование в целом, конструкция, схема, материал, метод и т. д.
Сетки, отражающие логику того или иного вида документа (первого типа), имеют значение прежде всего в практике реферирования (анно тирования) и, как правило, носят универсальный характер для многих отраслей знания. Большинство существующих инструкций и методи ческих документов но реферированию (ВИНИТИ, «Chemical Abst racts» и др.) предлагают структуру рефератов, близкую к указанной вы ше. Сетки второго типа также используются для описания структуры вторичного документа, однако имеют большее значение для фрагмен тирования документов, выделения из них содержательно самостоя тельных типовых фрагментов текста (подробнее см. в главе 4), посколь ку название типового фрагмента обычно соответствует элементу (ас пекту) сетки второго типа.
3.2.4. Семантическая структура текста
Под семантической структурой текста понимается строение, т. е. со став, и внутренняя организация его плана содержания. Э. Ф. Скороходько* предлагает развернутую классификацию семантических структур текстов.
* Скороходько Э. Ф. Семантические связи в лексике и текстах / / Вопросы информа ционной теории и практики.— 1977.— № 23.— С. 6-116.
В качестве первого основания классификации выдвигается связ ность речевой семантической сети. С точки зрения связности различа ются связные структуры (в таких текстах отмечается наличие семанти ческих связей между всеми предложениями) и несвязные (в текстах по следней структуры могут существовать как связные, так и несвязные предложения).
В качестве второго основания классификации принимается нали чие в текстах главного пути. С этой точки зрения различаются правиль ные и неправильные структуры. В текстах правильной структуры имеет ся главный путь (например, 1 > 2 > 3 > 4), в текстах неправильной структуры такой путь отсутствует (например, 1 > 3 > 2 > 4).
В числе правильных структур выделяют: 1) линейную структуру, «в которой главный путь включает не менее 75 % вершин и 50 % ребер, а протяженность любого второстепенного пути составляет не более 40 % от протяженности главного пути», семантическая структура, в которой одно из перечисленных трех требований не соблюдено, называется не линейной; 2) замкнут ую структуру, при наличии семантической связи между первым и последним предложениями текста, и незамкнут ую , в которой такая связь не отмечается.
В текстах как правильной, так и неправильной структуры выделяют также фрагментированные и нефрагментированные структуры (первые включают хотя бы один сгусток * в свою структуру, вторые — сгустков не имеют).
По взаимному расположению правильных путей в сети выделяют три класса структур: радиальны е (имеется большое количество пра вильных путей примерно равной длины, начинающихся в одной точке), ветвящиеся (имеется правильный путь сравнительно большой длины, отдельные вершины которого дают начало другим правильным путям, имеющим, как правило, меньшую длину), монолитные (имеется боль шое число правильных путей, начинающихся в различных вершинах, причем многие вершины входят одновременно в разные правильные пути).
В радиальных структурах большинство вершин сети связано с неко торой вершиной — ядром; в ветвящихся структурах большинство вер шин сети связано с несколькими вершинами, входящими в какой-либо правильный путь; в монолитных структурах большинство вершин не
* Сгусток — это множество предложений, более тесно связанных семантически друг с другом, чем с остальными предложениями текста. Речевая семантическая связь в целом сгустком нс считается.
посредственно связаны друг с другом. Основные типы как правильных, так и неправильных структур текстов приведены в Приложении 7.
Анализируя перечисленные выше структуры, Э. Ф. Скороходько задается вопросом: в какой мере тип семантической структуры, уста новленный по форме речевой семантической сети, отражает реальные особенности смыслового строения текста?
Так, научные тексты теоретического характера, например по мате матике, физике, кибернетике, обладают обычно высокой семантичес кой связностью (до 0,95) и поэтому имеют преимущественно монолит ную (аморфную) структуру.
Технические тексты, в которых дается описание механизмов или устройств, имеют часто фрагментированную структуру. Описания та ких объектов обычно расчленяются на отдельные фрагменты (сгустки), каждый из которых соотносится с той или иной составной частью опи сываемого объекта —деталью, узлом и т. и.
Предложения, относящиеся к одной составной части объекта, от нюдь не всегда концентрируются вместе, чаще они распределяются но всему тексту.
В научных и технических текстах сравнительно часто встречаются замкнутые структуры. Это связано с тем, что в последних предложени ях текста обычно подводятся итоги решения задачи, сформулирован ной в начале статьи.
Относительно возможностей формализованного реферирования текстов различной семантической структуры Э. Ф. Скороходько вы сказывает следующие наблюдения: «...в текстах с цепочечной, кольце вой и монолитной структурой функциональные веса предложений (особенно соседних) отличаются друг от друга сравнительно мало. Это, гю-видимому, может служить объяснением того факта, обнаруженного эмпирически, что статистические методы реферирования подобных текстов дают худшие результаты, чем текстов, имеющих, например, ку сочную структуру Далее, для текстов с цепочечной и кольцевой струк турой принципиально невозможно построить реферат из предложений, взятых непосредственно из текстов. Это объясняется тем, что в подоб ных текстах каждое последующее предложение описывает новую си туацию, новый аспект или признак объекта, которому посвящен текст, и т. п. Поэтому все предложения текста несут приблизительно-одина ковую семантическую и информационную нагрузку. Выделение от дельных предложений неминуемо носит более или менее случайный характер и не позволяет отразить основное содержание текста».
3.2.5. Информативная структура текста
С точки зрения информативной структуры, текст представляет со бой последовательность сигналов (знаков), отражающих содержание какого-либо объекта и несущих не только новую информацию, но и не которое количество информации известной (в сумме — полезную ин формацию), а также и неизбежные помехи. При этом качество сообще ния определяется как уровнем его содержательности, так и уровнем по мехоустойчивости. Чем выше уровень в тексте новых сигналов, тем он содержательнее, однако чтобы содержательность не пострадала от не избежных помех, он должен обладать необходимой и достаточной по мехоустойчивостью, которую обеспечивает определенная избыточ ность.
Информативная структура текста представлена на рисунке. Новая информация — это та часть текста, ради которой этот текст создавался
икоторая, по мысли автора (коммуниканта), способна внести измене ния в структуру как общественного, так и индивидуальных тезаурусов. Это содержательная часть текста. Составной частью новой информа ции, помимо истинной, является шум, который в то же время относится
ик сфере помех (но не входит в сферу полезной информации).
Шум — это дезинформация, вольно или невольно закравшаяся в текст: ошибки в расчетах и обобщениях, предвзятые, необоснованные выводы и рекомендации, недостаточно корректно трактуемые резуль таты экспериментов и др. Шум —самая опасная категория помех, по скольку снижает уровень содержательности информации.
Искажения выступают в виде различных стилистических ошибок, нечетких формулировок и пр.
К избыточной информации относятся известные уже сведения, по вторения, излишние подробности. Избыточная информация разделяет ся па релевантную и нерелевантную, причем граница между ними весь ма подвижна и зависит от степени развитости тезауруса реципиента и уровня свертывания ситуации в сообщении. В принципе, если доку мент имеет четкий читательский адрес и уровень свертывания сообще ния оптимальный, удельный вес нерелевантной избыточной информа ции приближается к нулю. Но это —идеальные условия.
Наряду с избыточной нерелевантной информацией в документе не только допустима, но и обязательна избыточная релевантная информа ция, обеспечивающая понимание и восприятие новой информации. Из вестно, что ничто новое не может быть воспринято без введения его в контекст известного. Задача заключается в том, чтобы известное было изложено па уровне свертывания, соответствующем назначению доку мента. Таким образом, избыточная информация, если она релевантна читательскому назначению, относится не к сфере помех, а к полезной информации, и именно она определяет уровень помехоустойчивости сообщения. К полезной относятся также и метаинформативные эле менты текста, ориентирующие реципиента в структуре текста.
Содержательность (С) и помехоустойчивость (П) в теории связи находятся в простой обратной зависимости (П = 1/С). Содержатель ность научного документа изменяется в интервале (0,1), т. е. О < С < 1. Это значит, что содержательность не может быть равна нулю, в против ном случае помехоустойчивость тогда окажется равной бесконечности. Однако содержательность не может быть равной и единице, так как это означало бы полное отсутствие в документе избыточности (такой текст был бы понятен лишь самому автору). Следовательно, помехоустойчи вость документа изменяется в интервале от 1до «>.
Если обозначить новую информацию через J w релевантную избы точную черезУр, нерелевантную избыточную через J np, а искажения и шум соответственноJ UCKи /ш, то информативность документа может из меряться отношением
(/„ Jp +Jup Juac +Уш)
В идеальном случае С =J„/(JH +Jp)>т-е*документ содержит лишь ту информацию, которая обеспечивает его содержательность и необходи мую помехоустойчивость.
Из перечисленных выше компонентов информативной структуры документа наибольшее внимание референтов, естественно, привлекает первый компонент —новая информация. На извлечение из документа
этого нового и бывают направлены (в соответствии с инструкциями) усилия референтов. Но эта задача подчас бывает не такой простой, как это может показаться на первый взгляд. Во-первых, новое должно быть
визвестной степени вплетено в старое, чтобы быть понятным; во-вто рых, во многих работах автор не всегда достаточно четко «очерчивает» свое новое и отделяет его от известного чужого (особенно это характер но для работ теоретических, проблемных и обзорно-аналитических); в- третьих, различение в работах шумов и избыточной нерелевантной ин формации требует от референта очень высокого уровня квалификации, что не всегда достижимо в условиях «серийного производства» рефера тов. По этим причинам решение проблемы формализации свертывания
врамках информативной структуры представляется достаточно отда ленным делом.
3.2.6.Функционально-смысловая структура текста (типы речи)
Вработах но стилистике, теории редактирования и в свое время но теории словесности традиционно различали три типа речи (текста): описание, повествование, рассуждение (иногда добавляют определе ние) *
Текст-описание характеризуется перечислением признаков описы ваемого объекта или его частей (например, изделия, схемы, конструк ции). Здесь построение текста определяется структурой данного объекта.
Для текста-повествования характерно сообщение о развивающихся действиях, событиях, состояниях. Здесь материал излагается часто в хронологической последовательности.
Втекстах-рассуждениях содержатся причинно-следственные (вы водные) конструкции, авторские оценки, модальные слова. Здесь текс ты отражают, как правило, ход процесса мышления.
Подобная функционально-смысловая типология текстов примени ма лишь к сравнительно небольшим фрагментам текста, так как более крупные текстовые образования содержат в себе нередко все три типа речи.
*О. А. Нечаева, наиболее полно разработавшая функционально-смысловую типоло гию текстов, выделяла при этом в рамках каждого из этих типов несколько подтипов. Например, четыре подтипа описания — описание пейзажа, объекта (одушевленного и не одушевленного), интерьера, существенных признаков кого-нибудь или чего-нибудь; три подтипа повествования — конкретно-сценическое, обобщенно-сценическое и информа ционное; шесть подтипов рассуждения, различающихся грамматической формой предло жений, выражающих выводное суждение. (Функционально-смысловые типы речи.— Улан-Удэ, 1974).
В рамках различных функциональных стилей (таких, например, как научный, официально-деловой, публицистичный, обиходной речи и ху дожественной литературы) типы изложения (речи) в общем универ сальны и, попадая в любой из стилей, сохраняют присущие им как ти пам изложения лингвистические черты. Однако в пределах конкретно го функционального стиля (в нашем случае —научного) доля разных способов изложения —описание, повествование, рассуждение —меня ется в зависимости от вида науки. В экспериментальных науках и в ра ботах, описывающих эксперимент, чаще используется повествователь ный тип речи. В логико-теоретических науках (математике, филосо фии), а также в работах теоретического характера (независимо от принадлежности к той или иной науке) чаще используется тип речи рассуждение. Для наук описательных характерен, естественно, описа тельный тип речи. Следует добавить, что такая соотнесенность рассматриваемых типов речи с видами наук носит самый общий характер. Больший интерес для нас представляет рассмотрение указанных типов с точки зрения видов (жанров) документов и, далее, типов сверхфразо вых единств, а также идентификация этих типов речи.
Если взять за основу жанровую классификацию научно-техничес ких документов А. В. Соколова —постановочные, теоретические, мето дические, документы, описывающие конкретный опыт работ, и доку менты, содержащие информацию о фактах, то обращает на себя внима ние, что для каждого из этих жанров характерен преимущественно свой тип речи: так, постановочным и теоретическим документам присуще прежде всего рассуждение; методическим документам и документам, описывающим конкретный опыт,— описание; документам, содержа щим информацию о фактах,—повествование.
В качестве основы для различения этих типов речи выделяются смысловые (логические) связи между отдельными участками текста, рассматриваемыми как простые или сложные высказывания. Тогда описательные и повествовательные тексты могут быть представлены как более или менее сложные многочленные конъюнкции, а рассужде ние —как текст, основанный на отношении выведения. Первые два ти па текста могут быть выражены формулой AABA ...AZ, третий —форму лой А > В, при этом сами «участки текста» в свою очередь могут пред ставлять сложные конструкции с различными логическими связями. Например, в тексте-описании один из членов конъюнкции может иметь строение типа рассуждение.
Существуют особенности свертывания текстов, относящихся к раз личным типам речи. Так, описательный текст в принципе легче подда ется сокращению, чем текст-рассуждеиие, поскольку в многочленной
конъюнкции высказываний не все из них, как правило, обладают равно значной важностью и релевантностью. И эти менее важные и релевант ные высказывания могут быть в ряде случаев опущены без ущерба для общего смысла текста (хотя информативность в этом случае обычно уменьшается). В случае свертывания текста-рассуждения, в котором связь между элементами текста более жестка, так как основана на отно шении следования, устранение даже одного из компонентов логической конструкции может привести к искажению смысла. Поэтому при свер тывании текстов подобного типа допустимы лишь такие сокращения, которые основаны на подразумеваемости устраняемых посылок или вывода, т. е. на энтимематическом (сокращенном) характере умозаклю чения.
Для текстов типа рассуждение в научной литературе характерны лексические признаки (слова, словосочетания или целые предложе ния), которые выражают логические причинно-следственные отноше ния. К числу таких признаков относятся: а) союзы, имеющие значение следствия: поэтому, таким образом, следовательно, в связи с этим, от сюда, вот почему, значит, т ак что и т. д.; б) глаголы и глагольные соче тания, несущие в себе значение вывода: следовать из чего-либо, заклю чать из чего-либо, делать вывод из чего-либо, вытекать из чего-либо,
означать что-либо, доказыват ь что-либо, подтверж дать что-либо, сви детельствовать о чем-либо и т. д.; в) существительные, подчеркиваю щие своим значением вывод: вывод, заключение, результ ат , предполо
и т. д.
Иногда эти слова образуют выводные конструкции чипа эти р езул ь
таты дают основание полагать, что; из этого можно сделать заклю че ние; как следует из ранее сказанного и т. д. При этом для научного текста специфичны выводы, представляющие собой предложения с элемен том, обобщающим несколько предыдущих предложений, что создает особый тип изложения, а именно «повествование-рассуждение».
В данном разделе перечислены лишь наиболее распространенные структуры текстов. Исследование различных текстовых структур име ет важное теоретическое и практическое значение для решения многих задач как интеллектуального, так и особенно формализованного свер тывания (в том числе для аннотирования, реферирования и фрагменти рования). В силу обзорного характера изложения материала здесь вы сказаны лишь отдельные соображения относительно возможной стра тегии свертывания исходя из рассмотрения текста с точки зрения той или иной его структуры.