|
Эта публикация цитируется в 7 научных статьях (всего в 7 статьях)
Speech-based emotion recognition and speaker identification: static vs. dynamic mode of speech representation
[Распознавание эмоций и идентификация спикера по речевым сигналам: сравнение статического и динамического подходов к представлению речевых сигналов]
Maxim Sidorova, Wolfgang Minkera, Eugene S. Semenkinb a Institute of Communications Engineering, Ulm University, Albert-Einstein-Allee, 43, Ulm, 89081
b Informatics and Telecommunications Institute, Reshetnev Siberian State Aerospace University, Krasnoyarskiy Rabochiy, 31, Krasnoyarsk, 660037, Russia
Аннотация:
В статье рассматривается применение различных алгоритмов машинного обучения для задач распознавания эмоций и идентификации говорящего на основе речевых сигналов. Мы исследуем статический и динамический режимы представления речевого сигнала. Для проведения численных экспериментов и апробации рассмотренных подходов мы использовали 7 баз данных на немецком, английском и японском языках. Более 45 алгоритмов машинного обучения были применены для решения указанных задач в двух режимах представления речевого сигнала. В статье представлены результаты численных исследований и проведен их анализ.
Ключевые слова:
распознавание эмоций и идентификация говорящего по речевым сигналам, алгоритмы машинного обучения, адаптивная процедура распознавания эмоций по речевым сигналам.
Получена: 28.12.2015 Исправленный вариант: 24.02.2016 Принята: 15.09.2016
Образец цитирования:
Maxim Sidorov, Wolfgang Minker, Eugene S. Semenkin, “Speech-based emotion recognition and speaker identification: static vs. dynamic mode of speech representation”, Журн. СФУ. Сер. Матем. и физ., 9:4 (2016), 518–523
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/jsfu514 https://www.mathnet.ru/rus/jsfu/v9/i4/p518
|
|