Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2022, том 29, номер 4, страницы 334–347
DOI: https://doi.org/10.18255/1818-1015-2022-4-334-347
(Mi mais783)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Theory of data

Классификация русскоязычных текстов по жанрам на основе современных эмбеддингов и ритма

К. В. Лагутина

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Список литературы:
Аннотация: В статье исследуются современные векторные модели текстов для решения задачи классификации русскоязычных текстов по жанрам. Модели включают эмбеддинги ELMo, языковую модель BERT с предобучением и комплекс числовых ритмических характеристик на основе лексико-грамматических средств. Эксперименты проводились на корпусе из 10 000 текстов пяти жанров: романы, научные статьи, отзывы, посты из социальной сети Вконтакте, новости из OpenCorpora.
Визуализация и анализ статистики для ритмических характеристик позволили выделить как наиболее разнообразные по ритму жанры: романы и отзывы, так и наименее - научные статьи. Именно эти жанры были впоследствии классифицированы лучше всего с помощью ритма и нейросети-классификатора LSTM. Кластеризация и классификация текстов по жанрам с помощью эмбеддингов ELMo и BERT позволила отделить один жанр от другого с небольшим количеством ошибок. F-мера мультиклассификации достигла 99%. Исследование подтверждает эффективность современных эмбеддингов в задачах компьютерной лингвистики, а также позволяет выделить достоинства и ограничения комплекса ритмических характеристик на материале классификации по жанрам.
Ключевые слова: стилометрия, обработка естественного языка, ритмические характеристики, жанры, классификация текстов, BERT, ELMo.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации СП-2109.2021.5
Работа поддержана стипендией Президента Российской Федерации для молодых ученых и аспирантов, осуществляющих перспективные научные исследования и разработки по приоритетным направлениям модернизации российской экономики: № СП-2109.2021.5.
Поступила в редакцию: 17.08.2022
Исправленный вариант: 04.11.2022
Принята в печать: 09.11.2022
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Образец цитирования: К. В. Лагутина, “Классификация русскоязычных текстов по жанрам на основе современных эмбеддингов и ритма”, Модел. и анализ информ. систем, 29:4 (2022), 334–347
Цитирование в формате AMSBIB
\RBibitem{Lag22}
\by К.~В.~Лагутина
\paper Классификация русскоязычных текстов по жанрам на основе современных эмбеддингов и ритма
\jour Модел. и анализ информ. систем
\yr 2022
\vol 29
\issue 4
\pages 334--347
\mathnet{http://mi.mathnet.ru/mais783}
\crossref{https://doi.org/10.18255/1818-1015-2022-4-334-347}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais783
  • https://www.mathnet.ru/rus/mais/v29/i4/p334
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:118
    PDF полного текста:89
    Список литературы:19
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024