Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2018, выпуск 58, страницы 53–76
DOI: https://doi.org/10.15622/sp.58.3
(Mi trspy1006)
 

Эта публикация цитируется в 11 научных статьях (всего в 11 статьях)

Искусственный интеллект, инженерия данных и знаний

Improvements in Serbian speech recognition using sequence-trained deep neural networks
[Усовершенствование распознавания сербской речи с помощью обученных на последовательностях глубоких нейронных сетей]

E. Pakocia, B. Popovićabcd, D. Pekarae

a University of Novi Sad
b Academy of Arts Belgrade
c Alfa BK University
d Computer Programming Agency Code85
e AlfaNum Speech Technologies
Аннотация: Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи.
Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах.
Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI акценты, основной тон, сербский.
Финансовая поддержка Номер гранта
Ministarstvo prosvete, nauke i tehnološkog razvoja Republike Srbije
Provincial Secretariat for Higher Education and Scientific Research 114-451-2570/2016-02
EUREKA E! 9944
Работа выполнена при частичной финансовой поддержке Министерства образования науки и технологического развития Республики Сербия в рамках проекта «Развитие диалоговых систем для сербских и других южнославянских языков» проект EUREKA DANSPLAT «Платформа для приложений речевых технологий на смартфонах для языков Дунайского региона» ID E! 9944 и провинциального секретариата высшего образования и научных исследований в рамках проекта «Центральная аудио-библиотека Университета Нови-Сад» № 114-451-2570 / 2016-02.
Поступила в редакцию: 15.05.2018
Реферативные базы данных:
Тип публикации: Статья
УДК: 004
Язык публикации: английский
Образец цитирования: E. Pakoci, B. Popović, D. Pekar, “Improvements in Serbian speech recognition using sequence-trained deep neural networks”, Тр. СПИИРАН, 58 (2018), 53–76
Цитирование в формате AMSBIB
\RBibitem{PakPopPek18}
\by E.~Pakoci, B.~Popovi{\'c}, D.~Pekar
\paper Improvements in Serbian speech recognition using sequence-trained deep neural networks
\jour Тр. СПИИРАН
\yr 2018
\vol 58
\pages 53--76
\mathnet{http://mi.mathnet.ru/trspy1006}
\crossref{https://doi.org/10.15622/sp.58.3}
\elib{https://elibrary.ru/item.asp?id=35630303}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1006
  • https://www.mathnet.ru/rus/trspy/v58/p53
  • Эта публикация цитируется в следующих 11 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024