M. Sečujski, S. Ostrogonac, S. Suzić, D. Pekar, “Learning prosodic stress from data in neural network based text-to-speech synthesis”, Тр. СПИИРАН, 59 (2018), 192

Труды СПИИРАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды СПИИРАН, 2018, выпуск 59, страницы 192–215
DOI: https://doi.org/10.15622/sp.59.8 (Mi trspy1019)

Искусственный интеллект, инженерия данных и знаний

Learning prosodic stress from data in neural network based text-to-speech synthesis

[Обучение просодической модели по данным в нейросетевом синтезе речи]

M. Sečujski^a, S. Ostrogonac^b, S. Suzić^a, D. Pekar^ab

^a University of Novi Sad
^b AlfaNum – Speech Technologies

PDF полного текста (1352 kB)

DOI: https://doi.org/10.15622/sp.59.8

Аннотация: Естественность — один из важнейших аспектов синтезированной речи. Современные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просодические элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые также были адаптированы для использования на других языках. В настоящей статье представлены некоторые недостатки ToBI в синтезе речи на американском английском языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связанной с конкретной частью предложения. В данном исследовании предлагается введение набора тегов, предназначенных для точного моделирования степени просодии, а именно определенная составляющая предложения может быть особо подчеркнута, если она является намеченным фокусом высказывания или ее роль преуменьшена, как это обычно бывает с фразами, сообщающими о прямой речи или комментариями.
С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества перед подходами, пытающимися использовать существующие теги ToBI для передачи степени акцента в синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.

Ключевые слова: американский английский, просодическая модель, синтез речи, ToBI.

Финансовая поддержка	Номер гранта
Ministarstvo prosvete, nauke i tehnološkog razvoja Republike Srbije	TR32035 OI178027
Работа выполнена при финансовой поддержке Министерства образования, науки и технологического развития Республики Сербия (проекты TR32035 и OI178027).

Поступила в редакцию: 15.05.2018

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.5

Язык публикации: английский

Образец цитирования: M. Sečujski, S. Ostrogonac, S. Suzić, D. Pekar, “Learning prosodic stress from data in neural network based text-to-speech synthesis”, Тр. СПИИРАН, 59 (2018), 192–215

Цитирование в формате AMSBIB

\RBibitem{SecOstSuz18}

\by M.~Se{\v{c}}ujski, S.~Ostrogonac, S.~Suzi{\'c}, D.~Pekar

\paper Learning prosodic stress from data in neural network based text-to-speech synthesis

\jour Тр. СПИИРАН

\yr 2018

\vol 59

\pages 192--215

\mathnet{http://mi.mathnet.ru/trspy1019}

\crossref{https://doi.org/10.15622/sp.59.8}

\elib{https://elibrary.ru/item.asp?id=35358996}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy1019

https://www.mathnet.ru/rus/trspy/v59/p192

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	120
PDF полного текста:	49

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы