E. Pakoci, B. Popović, D. Pekar, “Improvements in Serbian speech recognition using sequence-trained deep neural networks”, Тр. СПИИРАН, 58 (2018), 53

Труды СПИИРАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды СПИИРАН, 2018, выпуск 58, страницы 53–76
DOI: https://doi.org/10.15622/sp.58.3 (Mi trspy1006)

Эта публикация цитируется в 11 научных статьях (всего в 11 статьях)

Искусственный интеллект, инженерия данных и знаний

Improvements in Serbian speech recognition using sequence-trained deep neural networks

[Усовершенствование распознавания сербской речи с помощью обученных на последовательностях глубоких нейронных сетей]

E. Pakoci^a, B. Popović^abcd, D. Pekar^ae

^a University of Novi Sad
^b Academy of Arts Belgrade
^c Alfa BK University
^d Computer Programming Agency Code85
^e AlfaNum Speech Technologies

PDF полного текста (1359 kB) Список цитирования (11)

DOI: https://doi.org/10.15622/sp.58.3

Аннотация: Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи.
Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах.

Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI акценты, основной тон, сербский.

Финансовая поддержка	Номер гранта
Ministarstvo prosvete, nauke i tehnološkog razvoja Republike Srbije
Provincial Secretariat for Higher Education and Scientific Research	114-451-2570/2016-02
EUREKA	E! 9944
Работа выполнена при частичной финансовой поддержке Министерства образования науки и технологического развития Республики Сербия в рамках проекта «Развитие диалоговых систем для сербских и других южнославянских языков» проект EUREKA DANSPLAT «Платформа для приложений речевых технологий на смартфонах для языков Дунайского региона» ID E! 9944 и провинциального секретариата высшего образования и научных исследований в рамках проекта «Центральная аудио-библиотека Университета Нови-Сад» № 114-451-2570 / 2016-02.

Поступила в редакцию: 15.05.2018

Реферативные базы данных:

Тип публикации: Статья

УДК: 004

Язык публикации: английский

Образец цитирования: E. Pakoci, B. Popović, D. Pekar, “Improvements in Serbian speech recognition using sequence-trained deep neural networks”, Тр. СПИИРАН, 58 (2018), 53–76

Цитирование в формате AMSBIB

\RBibitem{PakPopPek18}

\by E.~Pakoci, B.~Popovi{\'c}, D.~Pekar

\paper Improvements in Serbian speech recognition using sequence-trained deep neural networks

\jour Тр. СПИИРАН

\yr 2018

\vol 58

\pages 53--76

\mathnet{http://mi.mathnet.ru/trspy1006}

\crossref{https://doi.org/10.15622/sp.58.3}

\elib{https://elibrary.ru/item.asp?id=35630303}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy1006

https://www.mathnet.ru/rus/trspy/v58/p53

Эта публикация цитируется в следующих 11 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы