|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Разрешение неоднозначности на основе псевдоаннотированной коллекции
А. С. Большинаa, Н. В. Лукашевичb a Московский государственный университет имени М. В. Ломоносова
b Научно-исследовательский вычислительный центр МГУ
Аннотация:
Передовые системы разрешения неоднозначности основаны на обучении с учителем, однако для создания таких моделей требуются большие объемы размеченных данных, которые отсутствуют для большинства языков с ограниченными ресурсами. Для того, чтобы решить проблему недостатка аннотированных данных в русском языке, в данной статье предлагается подход для автоматической разметки значений многозначных слов с использованием ансамбля моделей, базирующихся на слабо контролируемом обучении. Для первичной разметки данных использовался автоматический метод, основанный на концепте однозначных родственных слов. С помощью этих синтетических данных были обучены три модели для разрешения неоднозначности, которые затем применялись в ансамбле для получения значений ключевых многозначных слов. Проведенные эксперименты показали, что модели, обученные на данных, размеченных предобученными моделями, демонстрируют более высокое качество разрешения неоднозначности. Помимо этого, в статье изучается влияние различных подходов к аугментации текстовых данных на качество предсказаний.
Ключевые слова:
автоматическое разрешение неоднозначности, датасеты на русском языке, RuWordNet.
Образец цитирования:
А. С. Большина, Н. В. Лукашевич, “Разрешение неоднозначности на основе псевдоаннотированной коллекции”, Труды ИСП РАН, 33:6 (2021), 193–204
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp654 https://www.mathnet.ru/rus/tisp/v33/i6/p193
|
Статистика просмотров: |
Страница аннотации: | 33 | PDF полного текста: | 14 |
|