|
Труды СПИИРАН, 2014, выпуск 33, страницы 164–185
(Mi trspy728)
|
|
|
|
Автоматическое извлечение словарных помет из Русского Викисловаря
А. А. Крижановскийa, А. В. Смирновa, В. М. Кругловb, Н. Б. Крижановскаяc, И. С. Кипятковаa a Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации РАН
b Федеральное государственное бюджетное учреждение науки Институт лингвистических исследований Российской академии наук
c Федеральное государственное бюджетное учреждение науки Институт прикладных математических исследований Карельского научного центра Российской академии наук
Аннотация:
Разработана методология извлечения словарных помет из интернет-словарей. В соответствие с этой методологией экспертами построено отображение (соответствие один к одному) системы словарных помет Русского Викисловаря (385 помет) и системы словарных помет Английского Викисловаря (1001 помета). Таким образом, построена интегральная система словарных помет (1096 помет), включающая пометы обоих словарей. Разработан синтаксический анализатор (парсер), который распознаёт и извлекает известные и новые словарные пометы, сокращения и пояснения, указанные в начале текста значений слов в словарных статьях Викисловаря. Следует отметить наличие в парсере большого количества словарных помет известных заранее (385 словарных помет для Русского Викисловаря). С помощью парсера на основе данных Русского Викисловаря была построена база данных машиночитаемого Викисловаря, включающая информацию о словарных пометах. В работе приводятся численные параметры словарных помет в Русском Викисловаре, а именно: с помощью разработанной программы было подсчитано, что в базе данных машиночитаемого Викисловаря к 133 тыс. значений слов приписаны пометы и пояснения; для полутора тысяч значений слов был указан регион употребления слова, подсчитано число словарных помет для разных предметных областей. Вкладом данной работы в компьютерную лексикографию является оценка численных параметров словарных помет в больших словарях (пятьсот тысяч словарных статей).
Ключевые слова:
вычислительная лингвистика, компьютерная лексикография, русский язык.
Образец цитирования:
А. А. Крижановский, А. В. Смирнов, В. М. Круглов, Н. Б. Крижановская, И. С. Кипяткова, “Автоматическое извлечение словарных помет из Русского Викисловаря”, Тр. СПИИРАН, 33 (2014), 164–185
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy728 https://www.mathnet.ru/rus/trspy/v33/p164
|
Статистика просмотров: |
Страница аннотации: | 236 | PDF полного текста: | 288 | Список литературы: | 46 |
|