Информатика и автоматизация
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и автоматизация, 2022, выпуск 21, том 4, страницы 678–709
DOI: https://doi.org/10.15622/ia.21.4.2
(Mi trspy1205)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Искусственный интеллект, инженерия данных и знаний

Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков

И. С. Кипяткова, И. А. Кагиров

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)
Аннотация: В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.
Ключевые слова: малоресурсные языки, аугментация речевых данных, перенос знаний, машинное обучение, языковые корпуса.
Финансовая поддержка Номер гранта
Российский научный фонд 22-21-00843
Работа выполнена при финансовой поддержке фонда РНФ (проект № 22-21-00843).
Поступила в редакцию: 22.06.2022
Тип публикации: Статья
УДК: 004.522
Образец цитирования: И. С. Кипяткова, И. А. Кагиров, “Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков”, Информатика и автоматизация, 21:4 (2022), 678–709
Цитирование в формате AMSBIB
\RBibitem{KipKag22}
\by И.~С.~Кипяткова, И.~А.~Кагиров
\paper Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
\jour Информатика и автоматизация
\yr 2022
\vol 21
\issue 4
\pages 678--709
\mathnet{http://mi.mathnet.ru/trspy1205}
\crossref{https://doi.org/10.15622/ia.21.4.2}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1205
  • https://www.mathnet.ru/rus/trspy/v21/i4/p678
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:148
    PDF полного текста:144
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024