|
Труды СПИИРАН, 2007, выпуск 4, страницы 388–404
(Mi trspy292)
|
|
|
|
Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи
А. Л. Ронжинa, Ан.Б. Леонтьева, И.А. Кагиров, Ш. Тайль a Санкт-Петербургский институт информатики и автоматизации РАН
Аннотация:
Описан новый способ компактного хранения словаря слов и их транскрипций в виде фонемного графа, учитывающего дифференциальные морфологические признаки слов. Сокращение словаря особенно актуально для флективных языков, где богатая морфология сильно затрудняет анализ текста и речи. Для повышения производительности декодера русской речи с большим словарем предлагается использовать двухуровневый морфофонемный префиксный граф. Выделение одинаковых основ и окончаний в различных словах существенно сокращает пространство поиска гипотез распознавания. Использованная статистическая модель языка учитывает встречаемость комбинаций основ, а не целых слов, что уменьшает сложность декодирования слитной речи и требует для обучения значительно меньшего объема текстовых ресурсов. По сравнению с базовыми моделями фонетического представления словаря сложность топологии предложенного графа оказалась в 17 раз меньше.
Образец цитирования:
А. Л. Ронжин, Ан.Б. Леонтьева, И.А. Кагиров, Ал.Б. Леонтьева, “Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи”, Тр. СПИИРАН, 4 (2007), 388–404
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy292 https://www.mathnet.ru/rus/trspy/v4/p388
|
|