И. С. Кипяткова, И. А. Кагиров, “Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков”, Информатика и автоматизация, 21:4 (2022), 678

Информатика и автоматизация

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Информатика и автоматизация, 2022, выпуск 21, том 4, страницы 678–709
DOI: https://doi.org/10.15622/ia.21.4.2 (Mi trspy1205)

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Искусственный интеллект, инженерия данных и знаний

Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков

И. С. Кипяткова, И. А. Кагиров

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)

PDF полного текста (1212 kB) Список цитирования (2)

DOI: https://doi.org/10.15622/ia.21.4.2

Аннотация: В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.

Ключевые слова: малоресурсные языки, аугментация речевых данных, перенос знаний, машинное обучение, языковые корпуса.

Финансовая поддержка	Номер гранта
Российский научный фонд	22-21-00843
Работа выполнена при финансовой поддержке фонда РНФ (проект № 22-21-00843).

Поступила в редакцию: 22.06.2022

Тип публикации: Статья

УДК: 004.522

Образец цитирования: И. С. Кипяткова, И. А. Кагиров, “Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков”, Информатика и автоматизация, 21:4 (2022), 678–709

Цитирование в формате AMSBIB

\RBibitem{KipKag22}

\by И.~С.~Кипяткова, И.~А.~Кагиров

\paper Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков

\jour Информатика и автоматизация

\yr 2022

\vol 21

\issue 4

\pages 678--709

\mathnet{http://mi.mathnet.ru/trspy1205}

\crossref{https://doi.org/10.15622/ia.21.4.2}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy1205

https://www.mathnet.ru/rus/trspy/v21/i4/p678

Эта публикация цитируется в следующих 2 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	188
PDF полного текста:	168

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы