Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2021, том 33, выпуск 6, страницы 193–204
DOI: https://doi.org/10.15514/ISPRAS-2021-33(6)-13
(Mi tisp654)
 

Разрешение неоднозначности на основе псевдоаннотированной коллекции

А. С. Большинаa, Н. В. Лукашевичb

a Московский государственный университет имени М. В. Ломоносова
b Научно-исследовательский вычислительный центр МГУ
Аннотация: Передовые системы разрешения неоднозначности основаны на обучении с учителем, однако для создания таких моделей требуются большие объемы размеченных данных, которые отсутствуют для большинства языков с ограниченными ресурсами. Для того, чтобы решить проблему недостатка аннотированных данных в русском языке, в данной статье предлагается подход для автоматической разметки значений многозначных слов с использованием ансамбля моделей, базирующихся на слабо контролируемом обучении. Для первичной разметки данных использовался автоматический метод, основанный на концепте однозначных родственных слов. С помощью этих синтетических данных были обучены три модели для разрешения неоднозначности, которые затем применялись в ансамбле для получения значений ключевых многозначных слов. Проведенные эксперименты показали, что модели, обученные на данных, размеченных предобученными моделями, демонстрируют более высокое качество разрешения неоднозначности. Помимо этого, в статье изучается влияние различных подходов к аугментации текстовых данных на качество предсказаний.
Ключевые слова: автоматическое разрешение неоднозначности, датасеты на русском языке, RuWordNet.
Финансовая поддержка
Исследование выполнено при поддержке Междисциплинарной научно-образовательной школы Московского государственного университета имени М.В. Ломоносова «Мозг, когнитивные системы, искусственный интеллект».
Тип публикации: Статья
Образец цитирования: А. С. Большина, Н. В. Лукашевич, “Разрешение неоднозначности на основе псевдоаннотированной коллекции”, Труды ИСП РАН, 33:6 (2021), 193–204
Цитирование в формате AMSBIB
\RBibitem{BolLuk21}
\by А.~С.~Большина, Н.~В.~Лукашевич
\paper Разрешение неоднозначности на основе псевдоаннотированной коллекции
\jour Труды ИСП РАН
\yr 2021
\vol 33
\issue 6
\pages 193--204
\mathnet{http://mi.mathnet.ru/tisp654}
\crossref{https://doi.org/10.15514/ISPRAS-2021-33(6)-13}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp654
  • https://www.mathnet.ru/rus/tisp/v33/i6/p193
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:19
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024