А. С. Большина, Н. В. Лукашевич, “Разрешение неоднозначности на основе псевдоаннотированной коллекции”, Труды ИСП РАН, 33:6 (2021), 193

Труды института системного программирования РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды института системного программирования РАН, 2021, том 33, выпуск 6, страницы 193–204
DOI: https://doi.org/10.15514/ISPRAS-2021-33(6)-13 (Mi tisp654)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Разрешение неоднозначности на основе псевдоаннотированной коллекции

А. С. Большина^a, Н. В. Лукашевич^b

^a Московский государственный университет имени М. В. Ломоносова
^b Научно-исследовательский вычислительный центр МГУ

PDF полного текста (366 kB) Список цитирования (1)

DOI: https://doi.org/10.15514/ISPRAS-2021-33(6)-13

Аннотация: Передовые системы разрешения неоднозначности основаны на обучении с учителем, однако для создания таких моделей требуются большие объемы размеченных данных, которые отсутствуют для большинства языков с ограниченными ресурсами. Для того, чтобы решить проблему недостатка аннотированных данных в русском языке, в данной статье предлагается подход для автоматической разметки значений многозначных слов с использованием ансамбля моделей, базирующихся на слабо контролируемом обучении. Для первичной разметки данных использовался автоматический метод, основанный на концепте однозначных родственных слов. С помощью этих синтетических данных были обучены три модели для разрешения неоднозначности, которые затем применялись в ансамбле для получения значений ключевых многозначных слов. Проведенные эксперименты показали, что модели, обученные на данных, размеченных предобученными моделями, демонстрируют более высокое качество разрешения неоднозначности. Помимо этого, в статье изучается влияние различных подходов к аугментации текстовых данных на качество предсказаний.

Ключевые слова: автоматическое разрешение неоднозначности, датасеты на русском языке, RuWordNet.

Финансовая поддержка
Исследование выполнено при поддержке Междисциплинарной научно-образовательной школы Московского государственного университета имени М.В. Ломоносова «Мозг, когнитивные системы, искусственный интеллект».

Тип публикации: Статья

Образец цитирования: А. С. Большина, Н. В. Лукашевич, “Разрешение неоднозначности на основе псевдоаннотированной коллекции”, Труды ИСП РАН, 33:6 (2021), 193–204

Цитирование в формате AMSBIB

\RBibitem{BolLuk21}

\by А.~С.~Большина, Н.~В.~Лукашевич

\paper Разрешение неоднозначности на основе псевдоаннотированной коллекции

\jour Труды ИСП РАН

\yr 2021

\vol 33

\issue 6

\pages 193--204

\mathnet{http://mi.mathnet.ru/tisp654}

\crossref{https://doi.org/10.15514/ISPRAS-2021-33(6)-13}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tisp654

https://www.mathnet.ru/rus/tisp/v33/i6/p193

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды института системного программирования РАН

Статистика просмотров:
Страница аннотации:	33
PDF полного текста:	14

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы