|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Искусственный интеллект, инженерия данных и знаний
Style-code method for multi-style parametric text-to-speech synthesis
[Метод стилевых кодов для многостилевого параметрического синтеза речи по тексту]
S. B. Suzića, T. V. Delića, S. J. Ostrogonacb, S. V. Đurića, D. J. Pekarab a University of Novi Sad
b AlfaNum – Speech Technologies
Аннотация:
Современные системы преобразования текста в речь обычно обеспечивают хорошую разборчивость. Одним из главных недостатков этих систем является отсутствие выразительности по сравнению с естественной человеческой речью. Очень неприятно, когда автоматическая система передает утвердительные и отрицательные предложения совершенно одинаково. Введение параметрических методов в синтезе речи дало возможность легко изменять характеристики говорящего и стили речи. В этой статье представлен простой способ включения стилей в синтезированную речь, используя стилевые коды.
Предлагаемый метод требует всего лишь пару минут заданного стиля, чтобы смоделировать нейтральную речь. Он успешно применяется как в скрытых марковских моделях, так и в синтезе на основе глубоких нейронных сетей, предоставляя стилевой код как дополнительный вклад в модель. Аудирование подтвердило, что наибольшая выразительность достигается за счет синтеза глубоких нейронных сетей по сравнению с синтезом скрытых марковских моделей. Также доказано, что качество речи, синтезированное глубокими нейронными сетями в определенном стиле, сопоставимо с речью, синтезированной в нейтральном стиле, хотя база данных нейтральной речи примерно в 10 раз больше. Глубокие нейронные сети на основе синтеза речи по тексту со стилевыми кодами изучаются путем сравнения качества речи, создаваемой системами одностилевого моделирования и многостилевого моделирования. Объективные и субъективные измерения подтвердили, что между этими двумя подходами нет существенной разницы.
Ключевые слова:
синтез речи по тексту, экспрессивный синтез речи, глубокие нейронные сети, стиль речи, стилевой код, прямой унитарный вектор.
Поступила в редакцию: 30.07.2018
Образец цитирования:
S. B. Suzić, T. V. Delić, S. J. Ostrogonac, S. V. Ðurić, D. J. Pekar, “Style-code method for multi-style parametric text-to-speech synthesis”, Тр. СПИИРАН, 60 (2018), 216–240
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1028 https://www.mathnet.ru/rus/trspy/v60/p216
|
Статистика просмотров: |
Страница аннотации: | 186 | PDF полного текста: | 42 |
|