|
Труды СПИИРАН, 2010, выпуск 12, страницы 35–49
(Mi trspy63)
|
|
|
|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Разработка и исследование статистической модели русского языка
И. С. Кипяткова, А. А. Карпов Санкт-Петербургский институт информатики и автоматизации РАН
Аннотация:
В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.
Ключевые слова:
статистическая обработка текста, модель языка.
Поступила в редакцию: 16.11.2010 Принята в печать: 06.12.2010
Образец цитирования:
И. С. Кипяткова, А. А. Карпов, “Разработка и исследование статистической модели русского языка”, Тр. СПИИРАН, 12 (2010), 35–49
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy63 https://www.mathnet.ru/rus/trspy/v12/p35
|
Статистика просмотров: |
Страница аннотации: | 394 | PDF полного текста: | 326 | Список литературы: | 37 | Первая страница: | 1 |
|