|
Проблемы передачи информации, 2001, том 37, выпуск 2, страницы 96–109
(Mi ppi520)
|
|
|
|
Эта публикация цитируется в 94 научных статьях (всего в 94 статьях)
Кодирование источников
Определение авторства текста с использованием буквенной и грамматической информации
О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв
Аннотация:
Метод, применяемый в данной статье для определения авторства текста,
основывается на формальной математической модели встречаемости последовательности
элементов текста как реализации цепи Маркова. В качестве элементов
текста используются последовательности букв и последовательности
грамматических классов слов. Оказывается, частоты употребления пар букв
и пар грамматических классов в тексте на русском языке являются достаточно
устойчивой характеристикой автора и, видимо, их можно использовать, чтобы
решать проблемы спорного авторства текста. Проводится сопоставление результатов,
полученных при использовании различных вариантов методики в указанных единицах. Эксперимент проводится на 385 текстах 82 писателей.
В Приложении описано исследование Д. В. Хмелёва о возможности применения
алгоритмов сжатия данных в задаче определения авторства.
Поступила в редакцию: 08.08.2000 После переработки: 11.01.2001
Образец цитирования:
О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв, “Определение авторства текста с использованием буквенной и грамматической информации”, Пробл. передачи информ., 37:2 (2001), 96–109; Problems Inform. Transmission, 37:2 (2001), 172–184
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ppi520 https://www.mathnet.ru/rus/ppi/v37/i2/p96
|
Статистика просмотров: |
Страница аннотации: | 2239 | PDF полного текста: | 1072 | Список литературы: | 88 | Первая страница: | 1 |
|