Информатика и автоматизация
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и автоматизация, 2024, выпуск 23, том 1, страницы 5–38
DOI: https://doi.org/10.15622/ia.23.1.1
(Mi trspy1279)
 

Искусственный интеллект, инженерия данных и знаний

Аналитический обзор методов автоматического анализа экстралингвистических компонентов спонтанной речи

А. А. Поволоцкая, А. А. Карпов

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)
Аннотация: Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью.
Ключевые слова: автоматическое распознавание речи, речевые технологии, машинное обучение, прикладная лингвистика, экстралингвистические компоненты, спонтанная речь, автоматическое распознавание экстралингвистических компонентов.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации НШ-17.2022.1.6
FFZF-2022-0005
Данное исследование выполнено в рамках Ведущей научной школы РФ (Грант № НШ-17.2022.1.6), а также частично в рамках бюджетной темы СПб ФИЦ РАН (№ FFZF-2022-0005).
Поступила в редакцию: 02.08.2023
Тип публикации: Статья
УДК: 004.934.2
Образец цитирования: А. А. Поволоцкая, А. А. Карпов, “Аналитический обзор методов автоматического анализа экстралингвистических компонентов спонтанной речи”, Информатика и автоматизация, 23:1 (2024), 5–38
Цитирование в формате AMSBIB
\RBibitem{PovKar24}
\by А.~А.~Поволоцкая, А.~А.~Карпов
\paper Аналитический обзор методов автоматического анализа экстралингвистических компонентов спонтанной речи
\jour Информатика и автоматизация
\yr 2024
\vol 23
\issue 1
\pages 5--38
\mathnet{http://mi.mathnet.ru/trspy1279}
\crossref{https://doi.org/10.15622/ia.23.1.1}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1279
  • https://www.mathnet.ru/rus/trspy/v23/i1/p5
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:63
    PDF полного текста:37
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024