компьютерная лексикография 1-4 вопросы
.doc-
Краткая характеристика традиционной лексикографии как раздела общего языкознания. Лексикография теоретическая и практическая. Проблематика теоретической лексикографии. Социальные функции, выполняемые практической лексикографией.
Лексикография — это наука о словарях, это раздел языкознания, который занимается практикой и теорией составления словарей. Эта область отчасти относится к прикладной лингвистике. Условно можно разделить лексикографию на практическую и теоретическую.
Теоретическая лексикография охватывает следующий комплекс проблем:
-
разработка общей типологии словарей и словарей новых типов;
-
разработка макроструктуры словаря (отбор лексики, принцип расположения слов и словарных статей, выделение омонимов, включение в корпус словаря и пр.);
-
разработка микроструктуры словаря, т.е. отдельной словарной статьи (грамматический и фонетический комментарий к слову, выделение и классификация значений, типы словарных определений и т.д.);
Большое внимание уделяется вопросу соотношения лингвистической и внелингвистической (энцеклопедической, страноведческой и т.д.) информации в словаре.
Практическая лексикография выполняет несколько важных социальных функций:
-
обучение языку как родному, так и иностранному;
-
описание родного языка (толковые словари);
-
межъязыковое общение (двуязычные или другие словари, разговорники);
-
научное изучение лексики языка (этимологические, исторические словари, словари мертвых языков).
-
Основные противоположения, на которых основывается классификация традиционных словарей (словарь академического типа vs. справочник и т.д.). Конкретные виды словарей, примеры.
Первым в российской науке к проблеме типологии словарей обратился Л.В.Щерба. Он предложил классификацию словарей, в основе которой лежат 6 противоположений:
-
Словарь академического типа— словарь-справочник. Словарь академического типа является нормативным, описывающим лексическую систему данного языка: в нём не должно быть фактов, противоречащих современному употреблению. В противоположность академическим словарям словари-справочники могут содержать сведения о более широком круге слов, выходящих за границы нормативного литературного языка.
-
Энциклопедический словарь— общий словарь. Противопоставление энциклопедических (описывают вещь, реалию) и лингвистических словарей (описывают слова)
-
Тезаурус— обычный (толковый или переводной) словарь. Тезаурусом считаются словари, в которых приводятся все слова, встретившиеся в данном языке хотя бы один раз.
-
Обычный (толковый или переводной) словарь— идеологический (идеографический) словарь. В идеологическом словаре слова-понятия должны быть классифицированы так, чтобы показать их живую взаимосвязь.
-
Толковый словарь— переводной словарь
-
Неисторический словарь— исторический словарь
-
Определение и основные направления компьютерной лексикографии.
Компьютерная лексикография: создание автоматических словарей, лингвистических баз данных и разработка программ поддержки лексикографических работ.
Основные направления:
-
автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т. д.)
-
теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing)
-
создание словарей, являющихся машинными версиями традиционных словарей.
-
Электронные коллекции документов. Корпусная лингвистика, ее связь с компьютерной лексикографией. Понятия корпуса, разметки, репрезентативности. Примеры корпусов.
Ко́рпусная лингви́стика— раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов.
Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Корпусная лингвистика является разделом компьютерной лингвистики.
В понятие корпус текста входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют «корпусным менеджером». Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.
Под репрезантативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов.
Среди лингвистических типов разметки различаются:
-
морфологическая (Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического.)
-
синтаксическая (Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. Графически синтагматические отношения между членами предложения изображаются, как известно, в виде дерева, а в тексте они представлены пaрами из открывающейся и закрывающейся квадратных скобок, которые обрамляют различные синтаксические конструкции – именные, глагольные и предложные словосочетания, придаточные предложения. )
-
семантическая (В схемах семантической разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдельное слово, а словосочетание. Все члены такого словосочетания получают один и тот же код, при этом для каждого из них дополнительно указываются его порядковый номер, а также общее число слов в идиоматическом выражении; )
-
анафорическая (Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. )
-
просодическая (В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Просодической часто сопутствует так называемая дискурсная разметка, которая служит для обозначения пауз хезитации, повторов, оговорок и т. д. )
Примеры корпусов:
В течение последних десятилетий во многих странах ведется работа над созданием корпусов текстов на национальных языках. Наиболее интенсивно идет строительство корпусов английского языка, первые из которых появились еще в 60-е годы: это Brown University Corpus и Lancaster/Oslo-Bergen Corpus (LOB). Текстовое содержимое каждого из них включает примерно один миллион словоупотреблений и снабжено морфологической разметкой. Помимо этого, Lancaster/Oslo-Bergen Corpus имеет в своем составе два подкорпуса - Leeds-Lancaster Treebank и Lancaster Parsed Corpus, - снабженных синтаксической разметкой. Самым крупным в настоящее время является Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически. Из текстовых корпусов, созданных для других европейских языков, стоит упомянуть о корпусе Института немецкого языка в Маннгейме.
– Национальный корпус русского языка, British National Corpus, International Corpus of English, Чешский национальный корпус