|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Искусственный интеллект, инженерия данных и знаний
Аналитический обзор методов автоматического анализа экстралингвистических компонентов спонтанной речи
А. А. Поволоцкая, А. А. Карпов Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)
Аннотация:
Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью.
Ключевые слова:
автоматическое распознавание речи, речевые технологии, машинное обучение, прикладная лингвистика, экстралингвистические компоненты, спонтанная речь, автоматическое распознавание экстралингвистических компонентов.
Поступила в редакцию: 02.08.2023
Образец цитирования:
А. А. Поволоцкая, А. А. Карпов, “Аналитический обзор методов автоматического анализа экстралингвистических компонентов спонтанной речи”, Информатика и автоматизация, 23:1 (2024), 5–38
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1279 https://www.mathnet.ru/rus/trspy/v23/i1/p5
|
Статистика просмотров: |
Страница аннотации: | 77 | PDF полного текста: | 45 |
|