Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2022, том 34, выпуск 4, страницы 135–152
DOI: https://doi.org/10.15514/ISPRAS-2022-34(4)-10
(Mi tisp710)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера

А. А. Лепендин, Р. С. Насретдинов, И. Д. Ильяшенко

Алтайский государственный университет
Аннотация: Развитие новых технологий голосового общения привело к необходимости совершенствования методов улучшения качества речи. Современные пользователи информационных систем предъявляют высокие требования как к разборчивости голосового сигнала, так и к его субъективно воспринимаемому качеству. Данная работа посвящена развитию нового подхода к решению актуальной задачи улучшения качества речи. Для этого было предложено использовать модифицированную нейронную сеть пирамидального трансформера, использующую двухкомпонентную структуру «кодер-декодер». Кодирующая компонента сети осуществляла сжатие спектра голосового сигнала в пирамидальную серию внутренних представлений. Декодирующая компонента, используя преобразования самовнимания, восстанавливала маску комплексного отношения очищенного и искаженного сигналов на основе вычисленных кодером внутренних представлений. Были рассмотрены две возможные функции потерь для обучения предложенной нейросетевой модели. Показано, что использование частотного кодирования, подмешиваемого к входным данным, позволило улучшить качество работы предложенного подхода. Реализованная на языке Python и библиотеке глубокого обучения PyTorch нейронная сеть обучалась и тестировалась на наборе данных DNS Challenge 2021. Она продемонстрировала высокое качество работы по сравнению с другими современными методами улучшения качества речи. В работе был проведен качественный анализ процесса обучения реализованной нейронной сети, который показал, что предлагаемая нейросетевая модель постепенно переходила от простого маскирования шума на ранних эпохах обучения к восстановлению пропущенных формантных компонент голоса говорящего на более поздних эпохах. Это приводило к высоким значениям численных метрик качества работы предложенного подхода и высокому субъективному качеству речи.
Ключевые слова: улучшение качества речи, очистка от шума, маскирование шума, глубокая нейронная сеть, глубокое обучение, архитектура кодер-декодер, пирамидальный трансформер, самовнимание
Финансовая поддержка Номер гранта
Российский научный фонд 22–21–00199
Исследование выполнено за счет гранта Российского научного фонда 22–21–00199
Тип публикации: Статья
Образец цитирования: А. А. Лепендин, Р. С. Насретдинов, И. Д. Ильяшенко, “Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера”, Труды ИСП РАН, 34:4 (2022), 135–152
Цитирование в формате AMSBIB
\RBibitem{LepNasIly22}
\by А.~А.~Лепендин, Р.~С.~Насретдинов, И.~Д.~Ильяшенко
\paper Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера
\jour Труды ИСП РАН
\yr 2022
\vol 34
\issue 4
\pages 135--152
\mathnet{http://mi.mathnet.ru/tisp710}
\crossref{https://doi.org/10.15514/ISPRAS-2022-34(4)-10}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp710
  • https://www.mathnet.ru/rus/tisp/v34/i4/p135
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:35
    PDF полного текста:25
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024