|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Theory of data
Классификация русскоязычных текстов по жанрам на основе современных эмбеддингов и ритма
К. В. Лагутина Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Аннотация:
В статье исследуются современные векторные модели текстов для решения задачи классификации русскоязычных текстов по жанрам. Модели включают эмбеддинги ELMo, языковую модель BERT с предобучением и комплекс числовых ритмических характеристик на основе лексико-грамматических средств. Эксперименты проводились на корпусе из 10 000 текстов пяти жанров: романы, научные статьи, отзывы, посты из социальной сети Вконтакте, новости из OpenCorpora.
Визуализация и анализ статистики для ритмических характеристик позволили выделить как наиболее разнообразные по ритму жанры: романы и отзывы, так и наименее - научные статьи. Именно эти жанры были впоследствии классифицированы лучше всего с помощью ритма и нейросети-классификатора LSTM. Кластеризация и классификация текстов по жанрам с помощью эмбеддингов ELMo и BERT позволила отделить один жанр от другого с небольшим количеством ошибок. F-мера мультиклассификации достигла 99%. Исследование подтверждает эффективность современных эмбеддингов в задачах компьютерной лингвистики, а также позволяет выделить достоинства и ограничения комплекса ритмических характеристик на материале классификации по жанрам.
Ключевые слова:
стилометрия, обработка естественного языка, ритмические характеристики, жанры, классификация текстов, BERT, ELMo.
Поступила в редакцию: 17.08.2022 Исправленный вариант: 04.11.2022 Принята в печать: 09.11.2022
Образец цитирования:
К. В. Лагутина, “Классификация русскоязычных текстов по жанрам на основе современных эмбеддингов и ритма”, Модел. и анализ информ. систем, 29:4 (2022), 334–347
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais783 https://www.mathnet.ru/rus/mais/v29/i4/p334
|
|