Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2024, том 36, выпуск 4, страницы 7–16
DOI: https://doi.org/10.15514/ISPRAS-2024-36(4)-1
(Mi tisp904)
 

Сравнение алгоритмов клонирования голоса в условиях нулевого и малого количества примеров

О. Оганесян, Д. Саргсян, A. Маладжян

Российско-Армянский университет, г. Ереван
Аннотация: Технология клонирования голоса сделала значительные шаги вперед в последние годы, с применением от персонализированных виртуальных ассистентов до сложных развлекательных систем. В данном исследовании проводится сравнение девяти моделей клонирования голоса, сосредотачиваясь на подходах нулевого и тонкой настройки. Модели клонирования голоса с нулевым обучением привлекают внимание своей способностью генерировать высококачественные синтетические голоса без необходимости в больших объемах обучающих данных для каждого нового голоса, а также возможностью осуществлять онлайн выводы в режиме реального времени. В отличие от них, модели, не относящиеся к нулевому обучению, обычно требуют дополнительных данных, но могут обеспечить улучшенную точность воспроизведения голоса. Исследование включает два ключевых эксперимента. Первый эксперимент оценивает эффективность моделей клонирования голоса с нулевым обучением, анализируя их способность точно воспроизводить целевые голоса без предварительного ознакомления. Второй эксперимент включает тонкую настройку моделей на целевых спикеров для оценки улучшений в качестве голоса и адаптивности. Модели оцениваются на основе ключевых показателей, оценивающих качество голоса, сохранение идентичности спикера, а также субъективные и объективные показатели производительности. Результаты показывают, что, хотя модели с нулевым обучением предлагают большую гибкость и простоту использования, модели с тонкой настройкой могут обеспечить более высокую производительность.
Ключевые слова: клонирование голоса; клонирование с нулевым обучением; тонкая настройка; синтез речи; адаптация говорящего.
Финансовая поддержка Номер гранта
Комитет по науке, Министерство образования, науки, культуры и спорта РА 23AA-1B006
Работа выполнена при поддержке Комитета по науке Республики Армения (исследовательский проект № 23AA-1B006).
Тип публикации: Статья
Образец цитирования: О. Оганесян, Д. Саргсян, A. Маладжян, “Сравнение алгоритмов клонирования голоса в условиях нулевого и малого количества примеров”, Труды ИСП РАН, 36:4 (2024), 7–16
Цитирование в формате AMSBIB
\RBibitem{HovSarMal24}
\by О.~Оганесян, Д.~Саргсян, A.~Маладжян
\paper Сравнение алгоритмов клонирования голоса в условиях нулевого и малого количества примеров
\jour Труды ИСП РАН
\yr 2024
\vol 36
\issue 4
\pages 7--16
\mathnet{http://mi.mathnet.ru/tisp904}
\crossref{https://doi.org/10.15514/ISPRAS-2024-36(4)-1}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp904
  • https://www.mathnet.ru/rus/tisp/v36/i4/p7
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025