|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера
А. А. Лепендин, Р. С. Насретдинов, И. Д. Ильяшенко Алтайский государственный университет
Аннотация:
Развитие новых технологий голосового общения привело к необходимости совершенствования методов улучшения качества речи. Современные пользователи информационных систем предъявляют высокие требования как к разборчивости голосового сигнала, так и к его субъективно воспринимаемому качеству. Данная работа посвящена развитию нового подхода к решению актуальной задачи улучшения качества речи. Для этого было предложено использовать модифицированную нейронную сеть пирамидального трансформера, использующую двухкомпонентную структуру «кодер-декодер». Кодирующая компонента сети осуществляла сжатие спектра голосового сигнала в пирамидальную серию внутренних представлений. Декодирующая компонента, используя преобразования самовнимания, восстанавливала маску комплексного отношения очищенного и искаженного сигналов на основе вычисленных кодером внутренних представлений. Были рассмотрены две возможные функции потерь для обучения предложенной нейросетевой модели. Показано, что использование частотного кодирования, подмешиваемого к входным данным, позволило улучшить качество работы предложенного подхода. Реализованная на языке Python и библиотеке глубокого обучения PyTorch нейронная сеть обучалась и тестировалась на наборе данных DNS Challenge 2021. Она продемонстрировала высокое качество работы по сравнению с другими современными методами улучшения качества речи. В работе был проведен качественный анализ процесса обучения реализованной нейронной сети, который показал, что предлагаемая нейросетевая модель постепенно переходила от простого маскирования шума на ранних эпохах обучения к восстановлению пропущенных формантных компонент голоса говорящего на более поздних эпохах. Это приводило к высоким значениям численных метрик качества работы предложенного подхода и высокому субъективному качеству речи.
Ключевые слова:
улучшение качества речи, очистка от шума, маскирование шума, глубокая нейронная сеть, глубокое обучение, архитектура кодер-декодер, пирамидальный трансформер, самовнимание
Образец цитирования:
А. А. Лепендин, Р. С. Насретдинов, И. Д. Ильяшенко, “Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера”, Труды ИСП РАН, 34:4 (2022), 135–152
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp710 https://www.mathnet.ru/rus/tisp/v34/i4/p135
|
Статистика просмотров: |
Страница аннотации: | 35 | PDF полного текста: | 25 |
|