|
Theory of data
Нейросетевая классификация русскоязычных предложений по тональности на четыре класса
М. А. Костерин, И. В. Парамонов Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Аннотация:
Работа посвящена классификации русскоязычных предложений по тональности на четыре класса: положительный, отрицательный, смешанный и нейтральный. В отличие от большинства современных работ в этой области, вводится в рассмотрение класс предложений смешанной тональности. Предложения со смешанной тональностью содержат в себе одновременно и положительно, и отрицательно окрашенную речь.
Для решения данной задачи были применены: нейронная сеть LSTM с механизмом внимания, нейронная сеть GRU с двойным механизмом внимания, нейронная сеть BERT с несколькими модификациями выходного слоя для обеспечения классификации на четыре класса. Эксперименты по сравнению эффективности различных нейронных сетей производилось на трёх корпусах русскоязычных предложений. Два корпуса составлены из пользовательских отзывов: один с отзывами на одежду, другой с отзывами на отели. Третий корпус составлен из новостных статей российских изданий. Лучшая средняя взвешенная F-мера в экспериментах, составляющая 0.90, была достигнута моделью BERT на корпусе отзывов на одежду. На этом же корпусе были отмечены лучшие F-меры для положительных и отрицательных предложений, составившие 0.92 и 0.93 соответственно. Наилучшие показатели классификации нейтральных и смешанных предложений достигаются на корпусе новостных статей. Для них F-мера составляет 0.72 и 0.58 соответственно. В результате экспериментов было продемонстрировано значительное превосходство трансферных нейронных сетей BERT над нейронными сетями предыдущего поколения LSTM и GRU, наиболее ярко выражающееся при классификации текстов со слабо выраженной эмоциональной окраской. Анализ ошибок показал, что на «смежные» классы тональности (положительный/отрицательный и смешанный) приходится большая доля ошибок при классификации с помощью BERT, чем в случае «противоположных» классов (положительный и отрицательный, нейтральный и смешанный).
Ключевые слова:
анализ тональности, нейросетевой классификатор, BERT, обработка естественного языка.
Поступила в редакцию: 28.04.2022 Исправленный вариант: 23.05.2022 Принята в печать: 25.05.2022
Образец цитирования:
М. А. Костерин, И. В. Парамонов, “Нейросетевая классификация русскоязычных предложений по тональности на четыре класса”, Модел. и анализ информ. систем, 29:2 (2022), 116–133
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais771 https://www.mathnet.ru/rus/mais/v29/i2/p116
|
Статистика просмотров: |
Страница аннотации: | 45 | PDF полного текста: | 16 | Список литературы: | 7 |
|