|
Труды СПИИРАН, 2013, выпуск 26, страницы 332–348
(Mi trspy626)
|
|
|
|
Использование сегментации речевого сигнала для построения комплексной модели диктора в системе идентификации говорящего.
Т. В. Ермоленкоab, Н. С. Клименкоa a Институт проблем искусственного интеллекта НАН Украины и МОН Украины
b Донецкий национальный технический университет
Аннотация:
Статья посвящена разработке комплексной модели диктора в задаче текстонезависимой идентификации по голосу. Комплексная модель базируется на методе гауссовых смесей. Ее формируют по речевому сигналу, который предварительно сегментируется на фрагменты, соответствующие различным фонетическим классам звуков. Предложен способ структурирования моделей дикторов. Модели дикторов структурированы в виде дерева, что позволило проводить идентификацию диктора без выполнения полного перебора всего множества моделей. Проведенные исследования показали, что деление акустического пространства голоса диктора на множество классов, представляющих некоторые фонетические события, приводит к увеличению эффективности идентификации по голосу, а предложенное структурирование множества моделей дикторов ускоряет операцию поиска.
Ключевые слова:
кластеризация, гауссовы смеси, модели дикторов, широкие фонетические классы, мел-частотные кепстральные коэффициенты.
Поступила в редакцию: 04.04.2013
Образец цитирования:
Т. В. Ермоленко, Н. С. Клименко, “Использование сегментации речевого сигнала для построения комплексной модели диктора в системе идентификации говорящего.”, Тр. СПИИРАН, 26 (2013), 332–348
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy626 https://www.mathnet.ru/rus/trspy/v26/p332
|
Статистика просмотров: |
Страница аннотации: | 182 | PDF полного текста: | 110 | Список литературы: | 45 | Первая страница: | 1 |
|