Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2018, выпуск 58, страницы 27–52
DOI: https://doi.org/10.15622/sp.58.2
(Mi trspy1005)
 

Искусственный интеллект, инженерия данных и знаний

HMM-based whisper recognition using $\mu$-law frequency warping
[Распознавание шепотной речи с использованием СММ и частотного преобразования по $\mu$-закону]

J. N. Galićab, S. T. Jovičićbc, V. D. Delicda, B. R. Markovićbe, D. S. Šumarac Pavlovićb, Đ. T. Grozdićf

a Universite of Banja Luka
b University of Belgrade
c Life Advancement Activities Center (Belgrade)
d University of Novi Sad
e Čačak Technical College
f Fincore Ltd.
Аннотация: Отсутствие достаточного количества данных шепотной речи для обучения является серьезной проблемой для современных систем автоматического распознавания речи (АРР). Из-за большого акустического различия между обычной и шепотной речью АРР системы значительно снижают производительность при обработке шепота.
В статье приведен анализ подходов к распознаванию нейтральной и шепотной речи на основе традиционных скрытых марковских моделей (СММ) для дикторозависимых (SD) и дикторонезависимых (SI) случаев. Особое внимание уделяется распознаванию шепотной речи с использованием нейтральной речи на этапе обучения (сценарий N/W). Система АРР разработана для распознавания изолированных слов из базы данных (Whi-Spe), включающей пары слов реально произнесенной речи нейтрально и шепотом. В сценарии N/W увеличение надежности достигается с применением предлагаемого частотного преобразования, изначально разработанного для сжатия и декомпрессии речевого сигнала в цифровых телекоммуникационных системах. Вместе с тем сохраняются хорошие показатели в распознавании нейтральной речи.
По сравнению с базовой моделью распознавания с применением Мел-частотных кепстральных коэффициентов (MFCC) точность распознавания слов с использованием кепстральных коэффициентов, полученных с помощью предложенного частотного деформирования (обозначаемого как $\mu$FCC), улучшена на 7,36% (SD) и 3,44% (SI) в абсолютных значениях. Кроме того, $\mathrm{F}$-мера (гармоническое среднее значение точности и полноты) для векторов признаков $\mu$FCC увеличивается на 6,90% (SD) и 3,59 %(SI). Статистические тесты подтверждают значимость достигнутого улучшения точности распознавания.
Ключевые слова: автоматическое распознавание речи извлечение признаков скрытые марковские модели, человеческий голос, шепот, обработка речи.
Финансовая поддержка Номер гранта
Ministarstvo prosvete, nauke i tehnološkog razvoja Republike Srbije OI178027
TR32032
TR32035
E!9944
Работа выполнена при частичной финансовой поддержке Министерства образования науки и технологического развития Республики Сербия (гранты OI178027 TR32032 и TR32035 E!9944).
Поступила в редакцию: 15.05.2018
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.5
Язык публикации: английский
Образец цитирования: J. N. Galić, S. T. Jovičić, V. D. Delic, B. R. Marković, D. S. Šumarac Pavlović, Ð. T. Grozdić, “HMM-based whisper recognition using $\mu$-law frequency warping”, Тр. СПИИРАН, 58 (2018), 27–52
Цитирование в формате AMSBIB
\RBibitem{GalJovDel18}
\by J.~N.~Gali{\'c}, S.~T.~Jovi{\v{c}}i{\'c}, V.~D.~Delic, B.~R.~Markovi{\'c}, D.~S.~{\v S}umarac Pavlovi{\'c}, {\DJ}.~T.~Grozdi{\'c}
\paper HMM-based whisper recognition using $\mu$-law frequency warping
\jour Тр. СПИИРАН
\yr 2018
\vol 58
\pages 27--52
\mathnet{http://mi.mathnet.ru/trspy1005}
\crossref{https://doi.org/10.15622/sp.58.2}
\elib{https://elibrary.ru/item.asp?id=35630302}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1005
  • https://www.mathnet.ru/rus/trspy/v58/p27
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:197
    PDF полного текста:76
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024