|
Статистическое распознавание языка текста по частоте буквосочетаний
Ю. Н. Орлов, С. А. Шилин
Аннотация:
Исследуются статистические свойства текстов, написанных на языках индоевропейской семьи, с целью разработки индикаторов распознавания языка или языковой группы. В качестве индикаторов рассматриваются: показатель Херста для некоторой специальной статистики, показывающей однородность звучания текста; частоты наиболее употребляемых буквосочетаний в текстах на разных европейских языках; эталонные распределения $n$-грамм. Точность бинарного распознавания была достигнута на уровне 0,99.
Ключевые слова:
частоты буквосочетаний, распознавание языка текста.
Образец цитирования:
Ю. Н. Орлов, С. А. Шилин, “Статистическое распознавание языка текста по частоте буквосочетаний”, Препринты ИПМ им. М. В. Келдыша, 2017, 032, 21 с.
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ipmp2248 https://www.mathnet.ru/rus/ipmp/y2017/p32
|
Статистика просмотров: |
Страница аннотации: | 164 | PDF полного текста: | 138 | Список литературы: | 38 |
|