|
Искусственный интеллект, инженерия данных и знаний
HMM-based whisper recognition using $\mu$-law frequency warping
[Распознавание шепотной речи с использованием СММ и частотного преобразования по $\mu$-закону]
J. N. Galićab, S. T. Jovičićbc, V. D. Delicda, B. R. Markovićbe, D. S. Šumarac Pavlovićb, Đ. T. Grozdićf a Universite of Banja Luka
b University of Belgrade
c Life Advancement Activities Center (Belgrade)
d University of Novi Sad
e Čačak Technical College
f Fincore Ltd.
Аннотация:
Отсутствие достаточного количества данных шепотной речи для обучения является серьезной проблемой для современных систем автоматического распознавания речи (АРР). Из-за большого акустического различия между обычной и шепотной речью АРР системы значительно снижают производительность при обработке шепота.
В статье приведен анализ подходов к распознаванию нейтральной и шепотной речи на основе традиционных скрытых марковских моделей (СММ) для дикторозависимых (SD) и дикторонезависимых (SI) случаев. Особое внимание уделяется распознаванию шепотной речи с использованием нейтральной речи на этапе обучения (сценарий N/W). Система АРР разработана для распознавания изолированных слов из базы данных (Whi-Spe), включающей пары слов реально произнесенной речи нейтрально и шепотом. В сценарии N/W увеличение надежности достигается с применением предлагаемого частотного преобразования, изначально разработанного для сжатия и декомпрессии речевого сигнала в цифровых телекоммуникационных системах. Вместе с тем сохраняются хорошие показатели в распознавании нейтральной речи.
По сравнению с базовой моделью распознавания с применением Мел-частотных кепстральных коэффициентов (MFCC) точность распознавания слов с использованием кепстральных коэффициентов, полученных с помощью предложенного частотного деформирования (обозначаемого как $\mu$FCC), улучшена на 7,36% (SD) и 3,44% (SI) в абсолютных значениях. Кроме того, $\mathrm{F}$-мера (гармоническое среднее значение точности и полноты) для векторов признаков $\mu$FCC увеличивается на 6,90% (SD) и 3,59 %(SI). Статистические тесты подтверждают значимость достигнутого улучшения точности распознавания.
Ключевые слова:
автоматическое распознавание речи извлечение признаков скрытые марковские модели, человеческий голос, шепот, обработка речи.
Поступила в редакцию: 15.05.2018
Образец цитирования:
J. N. Galić, S. T. Jovičić, V. D. Delic, B. R. Marković, D. S. Šumarac Pavlović, Ð. T. Grozdić, “HMM-based whisper recognition using $\mu$-law frequency warping”, Тр. СПИИРАН, 58 (2018), 27–52
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1005 https://www.mathnet.ru/rus/trspy/v58/p27
|
Статистика просмотров: |
Страница аннотации: | 197 | PDF полного текста: | 76 |
|