|
Искусственный интеллект, инженерия данных и знаний
Learning prosodic stress from data in neural network based text-to-speech synthesis
[Обучение просодической модели по данным в нейросетевом синтезе речи]
M. Sečujskia, S. Ostrogonacb, S. Suzića, D. Pekarab a University of Novi Sad
b AlfaNum – Speech Technologies
Аннотация:
Естественность — один из важнейших аспектов синтезированной речи.
Современные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просодические элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее
часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые
также были адаптированы для использования на других языках. В настоящей статье
представлены некоторые недостатки ToBI в синтезе речи на американском английском
языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связанной с конкретной частью предложения. В данном исследовании предлагается введение набора тегов, предназначенных для
точного моделирования степени просодии, а именно определенная составляющая предложения может быть особо подчеркнута, если она является намеченным фокусом высказывания или ее роль преуменьшена, как это обычно бывает с фразами, сообщающими о
прямой речи или комментариями.
С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества перед подходами,
пытающимися использовать существующие теги ToBI для передачи степени акцента в
синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с
тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.
Ключевые слова:
американский английский, просодическая модель, синтез речи, ToBI.
Поступила в редакцию: 15.05.2018
Образец цитирования:
M. Sečujski, S. Ostrogonac, S. Suzić, D. Pekar, “Learning prosodic stress from data in neural network based text-to-speech synthesis”, Тр. СПИИРАН, 59 (2018), 192–215
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1019 https://www.mathnet.ru/rus/trspy/v59/p192
|
Статистика просмотров: |
Страница аннотации: | 120 | PDF полного текста: | 49 |
|