|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов
А. Г. Малашина, А. Б. Лось Национальный исследовательский университет
«Высшая школа экономики» (г. Москва)
Аннотация:
При исследовании криптографических качеств алгоритмов защиты информации важным моментом является построение теоретических и экспериментальных моделей источников сообщений. В данной статье проводится статистический анализ свойств лексических и $n$-граммных моделей русского языка на основе новостного текстового корпуса. Создан специализированный корпус из новостных статей последних лет политической направленности, отражающий узкую область употребления языка. Составлены словари токенов и $n$-грамм, найдены величины покрытия этих словарей, а также значения энтропии. Проведена лемматизация исходного текстового корпуса и экстраполяция роста объёма словарей в зависимости от увеличения размера корпуса.
Ключевые слова:
словари n-грамм, энтропия $n$-грамм, осмысленные тексты.
Поступила в редакцию: 30.09.2020 Принята в печать: 22.06.2022
Образец цитирования:
А. Г. Малашина, А. Б. Лось, “Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов”, Чебышевский сб., 23:2 (2022), 151–160
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/cheb1182 https://www.mathnet.ru/rus/cheb/v23/i2/p151
|
|