|
Записки научных семинаров ПОМИ, 2021, том 499, страницы 206–221
(Mi znsl7060)
|
|
|
|
II. Информатика
Word-based russian text augmentation for character-level models
[Пословная аугментация для обучения посимвольных моделей на русскоязычных текстах]
R. B. Galinskya, A. M. Alekseevba, S. I. Nikolenkoab a St. Petersburg Department of Steklov Mathematical Institute of Russian Academy of Sciences
b Saint Petersburg State University
Аннотация:
Большие модели глубокого обучения, в том числе модели для обработки естественных языков, требуют больших наборов данных для обучения. Такие наборы могут оказаться недоступны для относительно редких языков или для отдельных предметных областей. Мы рассматриваем подход к решению проблемы низкой вариативности и малого размера доступных для обучения NLP моделей наборов данных на основе аугментации данных при помощи синонимов. Мы представляем новую схему аугментации, которая включает замену слов на синонимы и изменение порядка слов, применяем её к русскому языку и получаем улучшенные результаты для задачи анализа тональности. Библ. – 46 назв.
Ключевые слова:
глубокое обучение, обработка естественных языков, аугментация данных, анализ тональности.
Поступило: 02.10.2020
Образец цитирования:
R. B. Galinsky, A. M. Alekseev, S. I. Nikolenko, “Word-based russian text augmentation for character-level models”, Исследования по прикладной математике и информатике. I, Зап. научн. сем. ПОМИ, 499, ПОМИ, СПб., 2021, 206–221
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/znsl7060 https://www.mathnet.ru/rus/znsl/v499/p206
|
Статистика просмотров: |
Страница аннотации: | 153 | PDF полного текста: | 59 | Список литературы: | 18 |
|