|
Эта публикация цитируется в 12 научных статьях (всего в 12 статьях)
Искусственный интеллект, инженерия данных и знаний
Аналитический обзор интегральных систем распознавания речи
Н. М. Марковниковa, И. С. Кипятковаba a Федеральное государственное бюджетное учреждение науки Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН)
b Санкт-Петербургский государственный университет аэрокосмического приборостроения (СПбГУАП)
Аннотация:
Приведен аналитический обзор разновидностей интегральных (end-to-end) систем для распознавания речи, методов их построения, обучения и оптимизации. Рассмотрены варианты моделей на основе коннекционной временной классификации (CTC) в качестве функции потерь для нейронной сети, модели на основе механизма внимания и шифратор-дешифратор моделей. Также рассмотрены нейронные сети, построенные с использованием условных случайных полей (CRF), которые являются обобщением скрытых марковских моделей, что позволяет исправить многие недостатки стандартных гибридных систем распознавания речи, например, предположение о том, что элементы входных последовательностей звуков речи являются независимыми случайными величинами. Также описаны возможности интеграции с языковыми моделями на этапе декодирования, демонстрирующие существенное сокращение ошибки распознавания для интеграционных моделей. Описаны различные модификации и улучшения стандартных интегральных архитектур систем распознавания речи, как, например, обобщение коннекционной классификации и использовании регуляризации в моделях, основанных на механизмах внимания. Обзор исследований, проводимых в данной предметной области, показывает, что интегральные системы распознавания речи позволяют достичь результатов, сравнимых с результатами стандартных систем, использующих скрытые марковские модели, но с применением более простой конфигурации и быстрой работой системы распознавания как при обучении, так и при декодировании. Рассмотрены наиболее популярные и развивающиеся библиотеки и инструментарии для построения интегральных систем распознавания речи, такие как TensorFlow, Eesen, Kaldi и другие. Проведено сравнение описанных инструментариев по критериям простоты и доступности их использования для реализации интегральных систем распознавания речи.
Ключевые слова:
автоматическое распознавание речи, интегральные системы, нейронные сети, глубокое обучение.
Поступила в редакцию: 28.11.2017
Образец цитирования:
Н. М. Марковников, И. С. Кипяткова, “Аналитический обзор интегральных систем распознавания речи”, Тр. СПИИРАН, 58 (2018), 77–110
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1007 https://www.mathnet.ru/rus/trspy/v58/p77
|
Статистика просмотров: |
Страница аннотации: | 1184 | PDF полного текста: | 1269 |
|