Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2018, выпуск 60, страницы 216–240
DOI: https://doi.org/10.15622/sp.60.8
(Mi trspy1028)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Искусственный интеллект, инженерия данных и знаний

Style-code method for multi-style parametric text-to-speech synthesis
[Метод стилевых кодов для многостилевого параметрического синтеза речи по тексту]

S. B. Suzića, T. V. Delića, S. J. Ostrogonacb, S. V. Đurića, D. J. Pekarab

a University of Novi Sad
b AlfaNum – Speech Technologies
Аннотация: Современные системы преобразования текста в речь обычно обеспечивают хорошую разборчивость. Одним из главных недостатков этих систем является отсутствие выразительности по сравнению с естественной человеческой речью. Очень неприятно, когда автоматическая система передает утвердительные и отрицательные предложения совершенно одинаково. Введение параметрических методов в синтезе речи дало возможность легко изменять характеристики говорящего и стили речи. В этой статье представлен простой способ включения стилей в синтезированную речь, используя стилевые коды.
Предлагаемый метод требует всего лишь пару минут заданного стиля, чтобы смоделировать нейтральную речь. Он успешно применяется как в скрытых марковских моделях, так и в синтезе на основе глубоких нейронных сетей, предоставляя стилевой код как дополнительный вклад в модель. Аудирование подтвердило, что наибольшая выразительность достигается за счет синтеза глубоких нейронных сетей по сравнению с синтезом скрытых марковских моделей. Также доказано, что качество речи, синтезированное глубокими нейронными сетями в определенном стиле, сопоставимо с речью, синтезированной в нейтральном стиле, хотя база данных нейтральной речи примерно в 10 раз больше. Глубокие нейронные сети на основе синтеза речи по тексту со стилевыми кодами изучаются путем сравнения качества речи, создаваемой системами одностилевого моделирования и многостилевого моделирования. Объективные и субъективные измерения подтвердили, что между этими двумя подходами нет существенной разницы.
Ключевые слова: синтез речи по тексту, экспрессивный синтез речи, глубокие нейронные сети, стиль речи, стилевой код, прямой унитарный вектор.
Финансовая поддержка Номер гранта
Ministarstvo prosvete, nauke i tehnološkog razvoja Republike Srbije TR32035
Работа выполнена при финансовой поддержке Министерства образования науки и технологического развития Республики Сербия (грант TR32035).
Поступила в редакцию: 30.07.2018
Реферативные базы данных:
Тип публикации: Статья
УДК: 006.72
Язык публикации: английский
Образец цитирования: S. B. Suzić, T. V. Delić, S. J. Ostrogonac, S. V. Ðurić, D. J. Pekar, “Style-code method for multi-style parametric text-to-speech synthesis”, Тр. СПИИРАН, 60 (2018), 216–240
Цитирование в формате AMSBIB
\RBibitem{SuzDelOst18}
\by S.~B.~Suzi{\'c}, T.~V.~Deli{\'c}, S.~J.~Ostrogonac, S.~V.~{\DJ}uri{\'c}, D.~J.~Pekar
\paper Style-code method for multi-style parametric text-to-speech synthesis
\jour Тр. СПИИРАН
\yr 2018
\vol 60
\pages 216--240
\mathnet{http://mi.mathnet.ru/trspy1028}
\crossref{https://doi.org/10.15622/sp.60.8}
\elib{https://elibrary.ru/item.asp?id=36266201}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1028
  • https://www.mathnet.ru/rus/trspy/v60/p216
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:186
    PDF полного текста:42
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024