|
Искусственный интеллект, инженерия данных и знаний
Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода
А. А. Двойникова, И. А. Кагиров, А. А. Карпов Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)
Аннотация:
В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для решения этой проблемы в статье вводится новый метод на основе автоматического машинного перевода русскоязычных текстов на английский язык. Частичный перевод предполагает перевод отдельных лексем, не включенных в русскоязычные тональные словари, тогда как полный перевод подразумевает перевод всего текста целиком. Переведенный текст анализируется с использованием различных англоязычных тональных словарей. Экспериментальные исследования для решения задачи распознавания сентимента и эмоций были проведены на текстовых транскрипциях многомодального русскоязычного корпуса RAMAS, извлеченных из аудиоданных экспертным путем и автоматически с использованием системы распознавания речи. В результате применения методов машинного перевода достигается значение взвешенной F-меры распознавания семи классов эмоций 31,12 % и 23,74 %, и трех классов сентимента 75,37 % и 71,60 % для экспертных и автоматических транскрипций русскоязычной речи корпуса RAMAS, соответственно. Также в ходе экспериментов было выявлено, что использование статистических векторов в качестве метода преобразования текстовых данных позволяет достичь значение показателя взвешенной F-меры на 1-5 % выше по сравнению с использованием конкатенированного (статистического и тонального) вектора. Таким образом, эксперименты показывают, что объединение всех англоязычных тональных словарей позволяет повысить точность распознавания сентимента и эмоций в текстовых данных. В статье также исследуется корреляция между длиной вектора текстовых данных и его репрезентативностью. По результатам экспериментов можно сделать вывод, что использование лемматизации для нормализации слов текстовых транскрипций речи позволяет достичь большей точности распознавания сентимента по сравнению со стеммингом. Использование предложенных методов с полным и частичным машинным переводом позволяет повысить точность распознавания сентимента и эмоций на 0,65–9,76 % по показателю взвешенной F-меры по сравнению с базовым методом распознавания сентимента и эмоций.
Ключевые слова:
машинный перевод, тональные словари, распознавание эмоций, сентимент-анализ, тональные вектора.
Поступила в редакцию: 08.11.2023
Образец цитирования:
А. А. Двойникова, И. А. Кагиров, А. А. Карпов, “Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода”, Информатика и автоматизация, 23:4 (2024), 1173–1198
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1318 https://www.mathnet.ru/rus/trspy/v23/i4/p1173
|
Статистика просмотров: |
Страница аннотации: | 37 | PDF полного текста: | 16 |
|