О. Оганесян, Д. Саргсян, A. Маладжян, “Сравнение алгоритмов клонирования голоса в условиях нулевого и малого количества примеров”, Труды ИСП РАН, 36:4 (2024), 7

Труды института системного программирования РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды института системного программирования РАН, 2024, том 36, выпуск 4, страницы 7–16
DOI: https://doi.org/10.15514/ISPRAS-2024-36(4)-1 (Mi tisp904)

Сравнение алгоритмов клонирования голоса в условиях нулевого и малого количества примеров

О. Оганесян, Д. Саргсян, A. Маладжян

Российско-Армянский университет, г. Ереван

PDF полного текста (1056 kB)

DOI: https://doi.org/10.15514/ISPRAS-2024-36(4)-1

Аннотация: Технология клонирования голоса сделала значительные шаги вперед в последние годы, с применением от персонализированных виртуальных ассистентов до сложных развлекательных систем. В данном исследовании проводится сравнение девяти моделей клонирования голоса, сосредотачиваясь на подходах нулевого и тонкой настройки. Модели клонирования голоса с нулевым обучением привлекают внимание своей способностью генерировать высококачественные синтетические голоса без необходимости в больших объемах обучающих данных для каждого нового голоса, а также возможностью осуществлять онлайн выводы в режиме реального времени. В отличие от них, модели, не относящиеся к нулевому обучению, обычно требуют дополнительных данных, но могут обеспечить улучшенную точность воспроизведения голоса. Исследование включает два ключевых эксперимента. Первый эксперимент оценивает эффективность моделей клонирования голоса с нулевым обучением, анализируя их способность точно воспроизводить целевые голоса без предварительного ознакомления. Второй эксперимент включает тонкую настройку моделей на целевых спикеров для оценки улучшений в качестве голоса и адаптивности. Модели оцениваются на основе ключевых показателей, оценивающих качество голоса, сохранение идентичности спикера, а также субъективные и объективные показатели производительности. Результаты показывают, что, хотя модели с нулевым обучением предлагают большую гибкость и простоту использования, модели с тонкой настройкой могут обеспечить более высокую производительность.

Ключевые слова: клонирование голоса; клонирование с нулевым обучением; тонкая настройка; синтез речи; адаптация говорящего.

Финансовая поддержка	Номер гранта
Комитет по науке Министерства образования, науки, культуры и спорта РА	23AA-1B006
Работа выполнена при поддержке Комитета по науке Республики Армения (исследовательский проект № 23AA-1B006).

Тип публикации: Статья

Образец цитирования: О. Оганесян, Д. Саргсян, A. Маладжян, “Сравнение алгоритмов клонирования голоса в условиях нулевого и малого количества примеров”, Труды ИСП РАН, 36:4 (2024), 7–16

Цитирование в формате AMSBIB

\RBibitem{HovSarMal24}

\by О.~Оганесян, Д.~Саргсян, A.~Маладжян

\paper Сравнение алгоритмов клонирования голоса в условиях нулевого и малого количества примеров

\jour Труды ИСП РАН

\yr 2024

\vol 36

\issue 4

\pages 7--16

\mathnet{http://mi.mathnet.ru/tisp904}

\crossref{https://doi.org/10.15514/ISPRAS-2024-36(4)-1}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tisp904

https://www.mathnet.ru/rus/tisp/v36/i4/p7

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды института системного программирования РАН

Статистика просмотров:
Страница аннотации:	31
PDF полного текста:	16

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы