Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2018, выпуск 59, страницы 192–215
DOI: https://doi.org/10.15622/sp.59.8
(Mi trspy1019)
 

Искусственный интеллект, инженерия данных и знаний

Learning prosodic stress from data in neural network based text-to-speech synthesis
[Обучение просодической модели по данным в нейросетевом синтезе речи]

M. Sečujskia, S. Ostrogonacb, S. Suzića, D. Pekarab

a University of Novi Sad
b AlfaNum – Speech Technologies
Аннотация: Естественность — один из важнейших аспектов синтезированной речи. Современные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просодические элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые также были адаптированы для использования на других языках. В настоящей статье представлены некоторые недостатки ToBI в синтезе речи на американском английском языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связанной с конкретной частью предложения. В данном исследовании предлагается введение набора тегов, предназначенных для точного моделирования степени просодии, а именно определенная составляющая предложения может быть особо подчеркнута, если она является намеченным фокусом высказывания или ее роль преуменьшена, как это обычно бывает с фразами, сообщающими о прямой речи или комментариями.
С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества перед подходами, пытающимися использовать существующие теги ToBI для передачи степени акцента в синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.
Ключевые слова: американский английский, просодическая модель, синтез речи, ToBI.
Финансовая поддержка Номер гранта
Ministarstvo prosvete, nauke i tehnološkog razvoja Republike Srbije TR32035
OI178027
Работа выполнена при финансовой поддержке Министерства образования, науки и технологического развития Республики Сербия (проекты TR32035 и OI178027).
Поступила в редакцию: 15.05.2018
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.5
Язык публикации: английский
Образец цитирования: M. Sečujski, S. Ostrogonac, S. Suzić, D. Pekar, “Learning prosodic stress from data in neural network based text-to-speech synthesis”, Тр. СПИИРАН, 59 (2018), 192–215
Цитирование в формате AMSBIB
\RBibitem{SecOstSuz18}
\by M.~Se{\v{c}}ujski, S.~Ostrogonac, S.~Suzi{\'c}, D.~Pekar
\paper Learning prosodic stress from data in neural network based text-to-speech synthesis
\jour Тр. СПИИРАН
\yr 2018
\vol 59
\pages 192--215
\mathnet{http://mi.mathnet.ru/trspy1019}
\crossref{https://doi.org/10.15622/sp.59.8}
\elib{https://elibrary.ru/item.asp?id=35358996}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1019
  • https://www.mathnet.ru/rus/trspy/v59/p192
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:120
    PDF полного текста:49
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024