S. B. Suzić, T. V. Delić, S. J. Ostrogonac, S. V. Ðurić, D. J. Pekar, “Style-code method for multi-style parametric text-to-speech synthesis”, Тр. СПИИРАН, 60 (2018), 216

Труды СПИИРАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды СПИИРАН, 2018, выпуск 60, страницы 216–240
DOI: https://doi.org/10.15622/sp.60.8 (Mi trspy1028)

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Искусственный интеллект, инженерия данных и знаний

Style-code method for multi-style parametric text-to-speech synthesis

[Метод стилевых кодов для многостилевого параметрического синтеза речи по тексту]

S. B. Suzić^a, T. V. Delić^a, S. J. Ostrogonac^b, S. V. Đurić^a, D. J. Pekar^ab

^a University of Novi Sad
^b AlfaNum – Speech Technologies

PDF полного текста (1632 kB) Список цитирования (3)

DOI: https://doi.org/10.15622/sp.60.8

Аннотация: Современные системы преобразования текста в речь обычно обеспечивают хорошую разборчивость. Одним из главных недостатков этих систем является отсутствие выразительности по сравнению с естественной человеческой речью. Очень неприятно, когда автоматическая система передает утвердительные и отрицательные предложения совершенно одинаково. Введение параметрических методов в синтезе речи дало возможность легко изменять характеристики говорящего и стили речи. В этой статье представлен простой способ включения стилей в синтезированную речь, используя стилевые коды.
Предлагаемый метод требует всего лишь пару минут заданного стиля, чтобы смоделировать нейтральную речь. Он успешно применяется как в скрытых марковских моделях, так и в синтезе на основе глубоких нейронных сетей, предоставляя стилевой код как дополнительный вклад в модель. Аудирование подтвердило, что наибольшая выразительность достигается за счет синтеза глубоких нейронных сетей по сравнению с синтезом скрытых марковских моделей. Также доказано, что качество речи, синтезированное глубокими нейронными сетями в определенном стиле, сопоставимо с речью, синтезированной в нейтральном стиле, хотя база данных нейтральной речи примерно в 10 раз больше. Глубокие нейронные сети на основе синтеза речи по тексту со стилевыми кодами изучаются путем сравнения качества речи, создаваемой системами одностилевого моделирования и многостилевого моделирования. Объективные и субъективные измерения подтвердили, что между этими двумя подходами нет существенной разницы.

Ключевые слова: синтез речи по тексту, экспрессивный синтез речи, глубокие нейронные сети, стиль речи, стилевой код, прямой унитарный вектор.

Финансовая поддержка	Номер гранта
Ministarstvo prosvete, nauke i tehnološkog razvoja Republike Srbije	TR32035
Работа выполнена при финансовой поддержке Министерства образования науки и технологического развития Республики Сербия (грант TR32035).

Поступила в редакцию: 30.07.2018

Реферативные базы данных:

Тип публикации: Статья

УДК: 006.72

Язык публикации: английский

Образец цитирования: S. B. Suzić, T. V. Delić, S. J. Ostrogonac, S. V. Ðurić, D. J. Pekar, “Style-code method for multi-style parametric text-to-speech synthesis”, Тр. СПИИРАН, 60 (2018), 216–240

Цитирование в формате AMSBIB

\RBibitem{SuzDelOst18}

\by S.~B.~Suzi{\'c}, T.~V.~Deli{\'c}, S.~J.~Ostrogonac, S.~V.~{\DJ}uri{\'c}, D.~J.~Pekar

\paper Style-code method for multi-style parametric text-to-speech synthesis

\jour Тр. СПИИРАН

\yr 2018

\vol 60

\pages 216--240

\mathnet{http://mi.mathnet.ru/trspy1028}

\crossref{https://doi.org/10.15622/sp.60.8}

\elib{https://elibrary.ru/item.asp?id=36266201}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy1028

https://www.mathnet.ru/rus/trspy/v60/p216

Эта публикация цитируется в следующих 3 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	186
PDF полного текста:	42

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы