|
Эта публикация цитируется в 11 научных статьях (всего в 11 статьях)
Искусственный интеллект, инженерия данных и знаний
Improvements in Serbian speech recognition using sequence-trained deep neural networks
[Усовершенствование распознавания сербской речи с помощью обученных на последовательностях глубоких нейронных сетей]
E. Pakocia, B. Popovićabcd, D. Pekarae a University of Novi Sad
b Academy of Arts Belgrade
c Alfa BK University
d Computer
Programming Agency Code85
e AlfaNum Speech Technologies
Аннотация:
Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи.
Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах.
Ключевые слова:
глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI акценты, основной тон, сербский.
Поступила в редакцию: 15.05.2018
Образец цитирования:
E. Pakoci, B. Popović, D. Pekar, “Improvements in Serbian speech recognition using sequence-trained deep neural networks”, Тр. СПИИРАН, 58 (2018), 53–76
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1006 https://www.mathnet.ru/rus/trspy/v58/p53
|
|