Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2018, выпуск 58, страницы 77–110
DOI: https://doi.org/10.15622/sp.58.4
(Mi trspy1007)
 

Эта публикация цитируется в 12 научных статьях (всего в 12 статьях)

Искусственный интеллект, инженерия данных и знаний

Аналитический обзор интегральных систем распознавания речи

Н. М. Марковниковa, И. С. Кипятковаba

a Федеральное государственное бюджетное учреждение науки Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН)
b Санкт-Петербургский государственный университет аэрокосмического приборостроения (СПбГУАП)
Аннотация: Приведен аналитический обзор разновидностей интегральных (end-to-end) систем для распознавания речи, методов их построения, обучения и оптимизации. Рассмотрены варианты моделей на основе коннекционной временной классификации (CTC) в качестве функции потерь для нейронной сети, модели на основе механизма внимания и шифратор-дешифратор моделей. Также рассмотрены нейронные сети, построенные с использованием условных случайных полей (CRF), которые являются обобщением скрытых марковских моделей, что позволяет исправить многие недостатки стандартных гибридных систем распознавания речи, например, предположение о том, что элементы входных последовательностей звуков речи являются независимыми случайными величинами. Также описаны возможности интеграции с языковыми моделями на этапе декодирования, демонстрирующие существенное сокращение ошибки распознавания для интеграционных моделей. Описаны различные модификации и улучшения стандартных интегральных архитектур систем распознавания речи, как, например, обобщение коннекционной классификации и использовании регуляризации в моделях, основанных на механизмах внимания. Обзор исследований, проводимых в данной предметной области, показывает, что интегральные системы распознавания речи позволяют достичь результатов, сравнимых с результатами стандартных систем, использующих скрытые марковские модели, но с применением более простой конфигурации и быстрой работой системы распознавания как при обучении, так и при декодировании. Рассмотрены наиболее популярные и развивающиеся библиотеки и инструментарии для построения интегральных систем распознавания речи, такие как TensorFlow, Eesen, Kaldi и другие. Проведено сравнение описанных инструментариев по критериям простоты и доступности их использования для реализации интегральных систем распознавания речи.
Ключевые слова: автоматическое распознавание речи, интегральные системы, нейронные сети, глубокое обучение.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 18-07-01216_а
18-07-01407_а
Министерство образования и науки Российской Федерации МК-1000.2017.8
МД-254.2017.8
Российская академия наук - Федеральное агентство научных организаций 0073-2018-0002
Работа выполнена при финансовой поддержке фонда РФФИ (проекты № 18-07-01216 и 18-07-01407), Совета по грантам Президента РФ (проекты № МК-1000.2017.8 и МД-254.2017.8) и бюджетной темы № 0073-2018-0002.
Поступила в редакцию: 28.11.2017
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.522
Образец цитирования: Н. М. Марковников, И. С. Кипяткова, “Аналитический обзор интегральных систем распознавания речи”, Тр. СПИИРАН, 58 (2018), 77–110
Цитирование в формате AMSBIB
\RBibitem{MarKip18}
\by Н.~М.~Марковников, И.~С.~Кипяткова
\paper Аналитический обзор интегральных систем распознавания речи
\jour Тр. СПИИРАН
\yr 2018
\vol 58
\pages 77--110
\mathnet{http://mi.mathnet.ru/trspy1007}
\crossref{https://doi.org/10.15622/sp.58.4}
\elib{https://elibrary.ru/item.asp?id=35630304}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1007
  • https://www.mathnet.ru/rus/trspy/v58/p77
  • Эта публикация цитируется в следующих 12 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:1184
    PDF полного текста:1269
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024