Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Системно-комплексные исследования динамики языкового пространства3

..pdf
Скачиваний:
0
Добавлен:
15.11.2022
Размер:
1.4 Mб
Скачать

Таким образом, вероятность существования слова акупунктура женского рода будет оцениваться как 5/8, а слова акупунктур мужского рода – 3/8, то есть на данном этапе более вероятным будет признано существование форм неодушевлённого существительного женского рода.

Контекстуальный анализ заключается в определении контекста для каждой вероятной словоформы и поиске вероятных согласований. В качестве контекста мы используем участок текста, который заключён между двумя знаками препинания и содержит анализируемую словоформу. В случае, если внутри выделенного отрезка есть слова, которые могут согласовываться или быть скоординированы с одной из вероятных словоформ, то для неё увеличивается вероятность существования. Если в контексте есть несколько согласованных слов, то учитывается ближайшее.

Для иллюстрации контекстуального анализа был проведён поиск в Интернете по ключевому слову акупунктуру. Далее приведены десять найденных контекстов:

Акупунктура овеяна множеством легенд.

Точки акупунктуры помогают человеку получить всю необходимую информацию.

Атлас точек акупунктуры.

Исторический экскурс в китайскую акупунктуру. Курс углубленного изучения акупунктуры. Акупунктура зародилась вКитаев I–II векедо нашей эры.

Классическая акупунктура.

Акупунктура исцеляет волокна естественным образом. Акупунктура одно из основных направлений рефлексо-

терапии;...

Иглоукалывание, лечение иглоукалыванием, акупунктура.

Как можно увидеть, с существительным акупунктура со-

гласуются следующие слова: овеяна, китайскую, зародилась,

классическая. Данные согласования предполагают следующие

141

морфологические характеристики: единственное число, женский род, именительный или винительный падеж. Скоординированы слова помогают и исцеляет, причём и в одном, и в другом случае могут быть скоординированы обе вероятных словоформы, что не повышает нашу уверенность в любом из вариантов. Общая оценка согласований – 6/6 для акупунктура и 2/6 для аку-

пунктур.

В результате выполнения всех трёх алгоритмов мы получаем следующие нечёткие множества для графического слова

акупунктуру:

А1 = {акупунктура, сущ. жен. неод. ед. вин.,/0,76, акупунктур, сущ. муж. неод. ед. дат., 0,24};

А2 = {акупунктура, сущ. жен. неод. ед. вин.,/0,62, акупунктур, сущ. муж. неод. ед. дат., 0,38};

А3 = {акупунктура, сущ. жен. неод. ед. вин.,/1,0, акупунктур, сущ. муж. неод. ед. дат., 0,33}.

Результирующее нечёткое множество, вычисленное по формуле (2) как пересечение трёх приведённых:

А = {акупунктура, сущ. жен. неод. ед. вин.,/0,47, акупунктур, сущ. муж. неод. ед. дат., 0,03}.

Таким образом, алгоритм в качестве наиболее вероятного варианта выдаст первый (акупунктура, сущ. жен. неод. ед. вин., 0,47). Второй вариант (имеющий оценку значительно меньше, чем 0,47/1,5 = 0,31 – минимальная оценка, требующаяся, чтобы вариант был признан вероятным) будет отброшен как маловероятный.

3. Описание факторов и методов анализа

Далее кратко опишем идеи, положенные в основу каждого из трёх алгоритмов.

Алгоритм анализа графического слова основан на ме-

тоде аналогий. Базой метода аналогий является следующей эмпирический факт: если в обратном словаре словоформ припи-

142

сать каждой словоформе её грамматические признаки (например, признаки части речи, типа словоизменения, рода, числа, падежа, лица и др.), то можно заметить, что многие участки словаря (иногда значительного размера) имеют одинаковые наборы признаков [Белоногов 2004: 44] (см. ниже). Поэтому можно предположить, что если для неизвестного слова найти его место в обратном словаре, то его грамматические признаки будут с высокой вероятностью совпадать с признаками слов, находящихся рядом. Действительно, ряд экспериментов (в том числе, проведённые нами и описанные в [Гашков 2012]) подтверждают это предположение.

Фрагмент обратного морфологического словаря

Меренга

 

сущ, жен, неод, ед, им.

 

 

 

Шеренга

 

сущ, жен, неод, ед, им.

 

 

 

Стренга

 

сущ, жен, неод, ед, им.

 

 

 

Битенга

сущ, муж, неод, ед, род.

 

 

 

Тюбинга

 

сущ, муж, неод, ед, род.

 

 

 

Слябинга

 

сущ, муж, неод, ед, род.

 

 

 

Свинга

 

сущ, муж, неод, ед, род.

 

 

 

Слединга

 

сущ, муж, неод, ед, род.

 

 

 

Фединга

 

сущ, муж, неод, ед, род.

 

 

 

Инбридинга

 

сущ, муж, неод, ед, род.

 

 

 

Кроссбридинга

 

сущ, муж, неод, ед, род.

 

 

 

Пудинга

 

сущ, муж, неод, ед, род.

 

 

 

Крекинга

 

сущ, муж, неод, ед, род.

 

 

 

Викинга

сущ, муж, од, ед, род; сущ, муж, од, ед, вин.

 

 

 

Смокинга

сущ, муж, неод, ед, род.

 

 

 

Салинга

 

сущ, муж, неод, ед, род.

 

 

 

 

143

Канцелинга

сущ, муж, неод, ед, род.

Шиллинга

сущ, муж, неод, ед, род.

Эллинга

сущ, муж, неод, ед, род.

Стерлинга

сущ, муж, неод, ед, род.

Реслинга

сущ, муж, неод, ед, род.

Рислинга

сущ, муж, неод, ед, род.

Лемминга

сущ, муж, неод, ед, род.

Блюминга

сущ, муж, неод, ед, род.

Тренинга

сущ, муж, неод, ед, род.

Спиннинга

сущ, муж, неод, ед, род.

Браунинга

сущ, муж, неод, ед, род.

Спунинга

сущ, муж, неод, ед, род.

Демпинга

сущ, муж, неод, ед, род.

Здесь галочкой отмечены те строки, в которых изменяется хотя бы одна грамматическая характеристика при переходе от одного слова к следующему. Как видим, список слов в таблице состоит из нескольких частей, в каждой из которых соседние слова абсолютно идентичны по их признакам. Такой участок будем называть кластером. Возможен случай, когда кластер состоит только из одного слова. Пусть количество слов в словаре равно n, а количество кластеров – m. Число α = m/n, равное среднему количеству кластеров на слово, оказывается важной характеристикой словаря, что мы покажем ниже. Поскольку m не больше, чем n, то α ≤ 1. Заметим также, что количество кластеров может быть разным, в зависимости от критериев, по которым мы сравниваем слова. В приведённом выше примере (фрагмент словаря) четыре кластера, но если сравнивать слова только по роду, то кластеров будет два, а если по части речи, то только один. Рассмотрим пример определения морфологических признаков словоформы, изначально не вошедшей в словарь.

144

В качестве неизвестного графического слова возьмём словоформу боулинга (род. ед. от боулинг). Она будет располагаться между словоформами рислинга и лемминга. Таким образом, морфологические признаки, определённые методом аналогий для боулинга, будут такими: часть речи – существительное, мужской род, неодушевлённое, единственное число, родительный падеж.

Какую оценку точности метода мы можем сделать, исходя только из доступного обратного словаря (предполагая, что словарь с удовлетворительной точностью отражает особенности словоизменения и частотного распределения слов языка)? Пусть неизвестное слово попадает в случайное место словаря. Сначала предположим, что анализируемое слово не порождает нового кластера. Возможны два случая: рассматриваемое слово попадёт между двумя словами с одинаковыми грамматическими характеристиками (внутрь кластера), во втором – между словами с разными признаками. В первом случае мы считаем, что такое слово имеет те же характеристики, что и слова в кластере (иначе оно порождало бы новый кластер, что противоречит нашему предположению), то есть точность определения признаков равна 100 %. Во втором случае мы не можем решить, каковы его грамматические признаки, поскольку в словаре слово выше нового и слово ниже относятся к разным кластерам и имеют разные признаки. Мы можем предположить, что слово может относиться к верхнему или нижнему кластеру с одинаковой вероятностью, тогда точность определения будет 50 %. Вероятность того, что слово попадёт между двумя кластерами, мы оцениваем как α (полагая, что место нового слова в словаре случайно). Таким образом, мы оцениваем вероятность ошибки в случае, когда слово не порождает нового кластера как 0,5α.

Пока мы не учитывали возможность того, что слово породит новый кластер. Принимая во внимание предположение о том, что словарь отражает структуру языка, мы можем утверждать, что вероятность такого события равна α. Если слово порождает новый

145

кластер, то мы считаем точность определения признаков равной 0, авероятностьошибки, соответственно, 100 %.

Таким образом, общая оценка вероятности правильного определения морфологических признаков будет не более чем (1 – α) (1 – 0,5α), авероятностьошибки– неменеечем1 – (1 – α) (1 – 0,5α).

Для обратного словаря словоформ, построенного на основе словаря А.А. Зализняка объёмом примерно 1,5 миллионов вхождений, α = 0,05 (20 слов в кластере в среднем) при сравнении слов только по признаку «часть речи». Таким образом, ожидаемая точность определения части речи неизвестного слова

δ ≤ (1 – 0,025) (1 – 0,05) = 0,926 (92,6 %).

При сравнении соседних слов по всей совокупности морфологических признаков количество кластеров на слово α = 0,20 (5 слов в кластере в среднем), соответственно, вероятность точ-

ного определения δ ≤ (1 – 0,1) (1 – 0,2) = 0,72 (72 %). Эта оценка является верхней границей точности метода.

Проанализировав исходный алгоритм метода аналогий [Белоногов2004], мывыделилиследующиедостоинстваинедостатки.

К достоинствам можно отнести следующие особенности:

1)морфологические признаки известных слов определяются безошибочно (точность – 100 %)

2)точность определения морфологических признаков неизвестных слов – выше среднего (более 30 %).

Основными недостатками данного метода являются:

• неоптимальная структура данных, выражающаяся в необходимости двух словарей – словарь «служебных и коротких слов» и обратный словарь;

• использование достаточно медленного метода половинного деления для поиска в обратном словаре;

• метод сжатия информации, вызывающий трудности при необходимости добавить новое слово в обратный словарь, поскольку сжатие проводится с потерей данных.

Для того чтобы устранить недостатки метода, сохраняя его достоинства, мы внесли в него следующие изменения:

146

Объединили обратный словарь со словарём служебных и коротких слов, представив результат объединения как обратный словарь с отметками, маркирующими служебные слова.

Сохраняем всю информацию в словаре, что несколько увеличивает его размер, но не создаёт препятствий для добавления новых слов. Использование сжатия без потери информации возможно, в результате размер сжатого словаря сравним с размером словаря исходного метода. Однако мы не использовали сжатие, чтобы избежать усложнения разрабатываемой экспериментальной системы.

Для ускорения поиска организовали доступ к элементам обратного словаря в виде дерева. В словарь при этом не вносится никаких изменений, иначе говоря, содержание словарей в древовидной и в линейной формах эквивалентно. Возможен полностью автоматический переход от одной формы к другой и обратно.

Предложенные изменения упрощают добавление новой информации в словарь и снижают время поиска в несколько раз.

Дополнительные сложности создают слова-исключения, то есть такие слова, морфологические признаки которых встречаются на достаточно большом участке словаря в единственном экземпляре. Например, несколько слов, идущих в обратном словаре подряд:

пургатива

аккузатива

паллиатива

инициатива

индикатива

сиккатива вокатива,

где только инициатива – женского рода в именительном падеже. Для уменьшения влияния исключений мы определяем нечёткие признаки неизвестного слова, как усреднённые признаки десяти идущих подряд слов, причём слова, расположенные по

147

словарю дальше, вносят вклад в степень принадлежности соответствующего варианта обратно пропорционально расстоянию.

Для алгоритма парадигматического анализа нужно рас-

пределить все неизвестные графические слова по группам таким образом, чтобы в каждую группу попали словоформы только одного слова. Для этого мы дополнительно вносим в обратный словарь информацию о том, как получить начальную форму слова из известной словоформы. Информация записывается в следующем виде: количество символов с конца словоформы, которые удаляются, и псевдоокончание, которое добавляется к оставшимся символам. Например, запись братства,1,о означает, что мы удаляем один символ с конца слова («а»), получая братств, и добавляем «о», получая начальную форму братство. В данном случае псевдоокончание совпадает с реальным окончанием слова. В случае наличия в основе чередования гласных или согласных, других явлений, вызывающих изменения основы в разных словоформах, такого совпадения не будет.

Если словоформа соответствует более чем одной канонической форме, то такая информация приводится для каждой из них.

Точность определения грамматических признаков слова вместе с вероятной канонической формой понижается в сравнении с тем случаем, когда мы определяем только грамматические признаки неизвестного слова и не превышает 57 %. Для того чтобы повысить процент правильного определения, мы используем тот факт, что в достаточно объёмном корпусе слова встречаются, как правило, по несколько раз в различных своих формах. Используя каноническую форму, мы можем установить вероятную принадлежность разных словоформ к одной парадигме и увеличить надёжность определения морфологических признаков слова. Так, если в тексте встретятся 10 разных словоформ одного слова, то максимальная точность определения морфологических признаков составит (1–(1–0,57)10) 100 % = = 99,98 %. При этом все формы должны иметь разное графическое представление. Для того чтобы достигнуть точность опре-

148

деления 99 %, должно выполняться неравенство (1–0,57)x ≤ 0,01,

где x – минимальное

количество

форм в тексте. Отсюда

x ≥ ln 0,01 / ln (1 – 0,57),

или x ≥ 5,46.

Естественно, в тексте не

может встретится нецелое количество форм, поэтому мы округляем полученное значение вверх, до 6. Таким образом, для того чтобы достигнуть вероятность правильного определения морфологических признаков слова методом аналогий 0,99, достаточно встретить в тексте не менее шести его разных графических форм.

Изложенный выше метод является статистическим и не учи-

тывает связей между словами. Алгоритм контекстуального ана-

лиза позволяет уточнять признаки неизвестного слова по контексту. Как известно, морфологические признаки слова можно определить по согласованию с прилагательным или по координации с глаголом в паре «подлежащее – сказуемое», или другими изменяемыми частями речи, выступающими в схожей синтаксической роли. Учёт ближайшего окружения неизвестных слов повышает точность определения морфологических признаков. Особенно важнымэтоможетоказатьсядляомографичныхсловоформ.

Рассмотрим пример работы алгоритма контекстуального анализа на примере корпуса художественных текстов. В корпусе текстов были обнаружены следующие словоформы, не входящие в состав словаря: арендовал и арендую, для которых алгоритм аналогий порождает три потенциальных канонических формы: арендовать – глагол переходный несовершенный, глагол переходный совершенный и арендуй – существительное неодушевлённое мужского рода (совпадение с повелительной формой глагола – случайное). Причём совершенный и несовершенный глаголы порождаются от обеих словоформ, а существительное – от одной, что при линейной оценке вероятности даёт 1/5 для существительного и 2/5 для глаголов, при этом разница вероятностей составляет 1/5: 2/5 = 0,5 (50 %), при которой согласно нашему критерию, приведённому выше, обе начальные формы признаются возможными.

149

Гипотетические морфологические признаки для каждой из найденнойсловоформприведенывтабл. 2.

 

 

Таблица 2

Гипотетические морфологические признаки

 

Морфологические признаки для части речи

 

 

Словоформа

 

 

Глагол

Существительное

 

 

Арендовал

сов., действ., прош., ед., муж.;

 

 

 

несов., действ., прош., ед.,

 

 

 

 

муж.;

 

 

 

Арендую

несов., действ., наст., перв.;

муж., ед., дат.

 

 

 

сов., действ., буд., перв.

 

 

 

Для уточнения морфологических признаков рассмотрим вхождения словоформ в корпус. Всего таких вхождений пять:

… онарендовалземлюи свыгодой длясебя обрабатывал ее. …, арендовал театр, … Он арендовал две смежные квартиры.

Я арендую магазин, … Когда я арендую комнату, …

При уточнении морфологических характеристик мы учитываем только ближайшие слова слева и справа при условии, что они не отделены знаками препинания.

Подсчёт количества согласований помогает выявить правильную парадигму: в корпусе встретилось четыре согласования для арендовать и ни одного для арендуй.

4.Нечёткие признаки в синтаксисе

Вэтом подразделе мы покажем, что нечёткие признаки применимы для моделирования единиц языка не только на уровне морфологии, но и на других уровнях представления текста, а именно на синтаксическом. Мы полагаем, что главные элементы на уровне предложения, подлежащие моделированию, – это связи между словами, подчинительные и сочини-

150

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]