|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Theory of data
Анализ влияния стилометрических характеристик разного уровня на верификацию авторов художественных произведений
А. М. Манахова, Н. С. Лагутина Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Аннотация:
Данная статья посвящена анализу влияния различных комбинаций стилометрических характеристик разного уровня на качество верификации авторства русских, английских и французских прозаических текстов. Исследование проводилось как для низкоуровневых стилометрических характеристик, основанных на словах и символах, так и для более высокоуровневых — структурных.
Подсчёт всех стилометрических характеристик был выполнен автоматически с помощью программы ProseRhythmDetector. Такой подход позволил провести анализ произведений большого объёма и многих писателей одновременно. В ходе работы каждому тексту были сопоставлены векторы стилометрических характеристик уровня символов, слов и структуры. При проведении экспериментов наборы параметров этих трёх уровней были скомбинированы между собой всеми возможными способами. Полученные векторы стилометрических характеристик были поданы на вход различным классификаторам для выполнения верификации и выявления наиболее подходящего классификатора для решения поставленной задачи. Лучшие результаты были получены с помощью классификатора AdaBoost. Средняя F-мера для всех языков оказалась более 92%. Детальные оценки качества верификации приведены для каждого автора и проанализированы. Использование высокоуровневых стилометрических характеристик, в частности, частоты использования N-грамм POS-тегов открывает перспективу более детального анализа стиля того или иного автора. Результаты экспериментов показывают, что при соединении характеристик уровня структуры с характеристиками уровня слов и/или символов получаются наиболее точные результаты верификации авторства для художественных текстов на русском, английском и французском языках. Дополнительно авторам удалось сделать вывод о разной степени влияния стилометрических характеристик на качество верификации авторства для различных языков.
Ключевые слова:
стилометрия, стилометрические характеристики, верификация авторства, обработка естественного языка.
Поступила в редакцию: 25.06.2021 Исправленный вариант: 23.08.2021 Принята в печать: 25.08.2021
Образец цитирования:
А. М. Манахова, Н. С. Лагутина, “Анализ влияния стилометрических характеристик разного уровня на верификацию авторов художественных произведений”, Модел. и анализ информ. систем, 28:3 (2021), 260–279
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais749 https://www.mathnet.ru/rus/mais/v28/i3/p260
|
|