Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2019, выпуск 18, том 1, страницы 30–56
DOI: https://doi.org/10.15622/sp.18.1.30-56
(Mi trspy1038)
 

Эта публикация цитируется в 16 научных статьях (всего в 16 статьях)

Искусственный интеллект, инженерия данных и знаний

Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification
[Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций]

O. V. Verkholyaka, H. Kayab, A. A. Karpova

a St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS)
b Namık Kemal University
Аннотация: Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.
Ключевые слова: распознавание эмоций в речи, компьютерная паралингвистика, аффективные вычисления, представление признаков, моделирование контекста, искусственные нейронные сети, длинная кратковременная память.
Финансовая поддержка Номер гранта
Российский научный фонд 18-11-00145
Работа выполнена при поддержке Российского научного фонда (проект № 18-11-00145).
Поступила в редакцию: 24.08.2018
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.89
Язык публикации: английский
Образец цитирования: O. V. Verkholyak, H. Kaya, A. A. Karpov, “Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification”, Тр. СПИИРАН, 18:1 (2019), 30–56
Цитирование в формате AMSBIB
\RBibitem{VerKayKar19}
\by O.~V.~Verkholyak, H.~Kaya, A.~A.~Karpov
\paper Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification
\jour Тр. СПИИРАН
\yr 2019
\vol 18
\issue 1
\pages 30--56
\mathnet{http://mi.mathnet.ru/trspy1038}
\crossref{https://doi.org/10.15622/sp.18.1.30-56}
\elib{https://elibrary.ru/item.asp?id=37286131}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1038
  • https://www.mathnet.ru/rus/trspy/v18/i1/p30
  • Эта публикация цитируется в следующих 16 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:203
    PDF полного текста:76
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024