|
Распределение порядковых частот согласных букв как инвариант языковой группы
М. Ю. Кислицына, Ю. Н. Орлов
Аннотация:
Собрана статистика распределения частот согласных букв в основных современных языках индоевропейской семьи. Изучались распределения упорядоченных по убыванию частот, построенные на основе анализа литературных текстов длиной порядка 1 млн знаков. Показано, что можно ввести инвариант языковых групп – германской, романской, славянской и балтийской – как расстояние между элементами группы в норме L1. Пороговое расстояние, при котором языки объединяются в группы как полносвязные подграфы, равен 0,14. Показано также, что структуры графа ближних и дальних соседей соответствует модели зависимых случайных величин.
Ключевые слова:
машинная классификация, предобработка текстов,
распределение упорядоченных частот, граф ближайших соседей.
Образец цитирования:
М. Ю. Кислицына, Ю. Н. Орлов, “Распределение порядковых частот согласных букв как инвариант языковой группы”, Препринты ИПМ им. М. В. Келдыша, 2024, 016, 18 с.
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ipmp3226 https://www.mathnet.ru/rus/ipmp/y2024/p16
|
Статистика просмотров: |
Страница аннотации: | 43 | PDF полного текста: | 13 | Список литературы: | 19 |
|