|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Theory of data
Comparison of style features for the authorship verification of literary texts
[Сравнение стилистических характеристик для верификации авторов художественных текстов]
K. V. Lagutina P. G. Demidov Yaroslavl State University, 14 Sovetskaya str., Yaroslavl 150003, Russia
Аннотация:
В статье сравниваются характеристики уровней символов, слов и ритма для верификации авторства художественных текстов 19-21-го веков. Корпуса текстов содержат фрагменты романов, каждый фрагмент имеет размер около 50 000 знаков. Для каждого автора приводится 40 фрагментов. Рассматриваются по 20 авторов, писавших на английском, русском, французском языках, и 8 испаноязычных авторов.
Авторы статьи используют существующие алгоритмы для вычисления популярных в современной компьютерной лингвистике низкоуровневых характеристик и распространённых в художественной литературе ритмических характеристик. Низкоуровневые характеристики включают в себя n-граммы слов, частоты встречаемости букв и знаков пунктуации, среднюю длину слова и предложения и т. д. Ритмические характеристики основаны на лексико-грамматических средствах: анафоре, эпифоре, симплоке, апозиопезе, эпаналепсисе, анадиплозисе, диакопе, эпизевксисе, хиазме, многосоюзие, повторяющихся восклицательных и вопросительных предложениях. Данные характеристики включают в себя частоты появления отдельных ритмических средств на 100 предложений, количество уникальных слов в аспектах ритма, доли существительных, прилагательных, наречий и глаголов в аспектах ритма. Верификация авторов рассматривается как задача бинарной классификации: принадлежит текст конкретному автору или нет. В качестве алгоритмов классификации рассматриваются AdaBoost и нейросеть со слоем LSTM. Эксперименты демонстрируют эффективность ритмических характеристик при верификации конкретных авторов и превосходство комбинаций типов характеристик над отдельными типами характеристик в среднем. Лучшее значение точности, полноты и F-меры для классификатора AdaBoost превышает 90%, когда комбинируются все три типа характеристик.
Ключевые слова:
стилометрия, обработка естественного языка, стилистические характеристики, ритмические характеристики, верификация авторов.
Поступила в редакцию: 04.05.2021 Исправленный вариант: 20.08.2021 Принята в печать: 25.08.2021
Образец цитирования:
K. V. Lagutina, “Comparison of style features for the authorship verification of literary texts”, Модел. и анализ информ. систем, 28:3 (2021), 250–259
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais748 https://www.mathnet.ru/rus/mais/v28/i3/p250
|
Статистика просмотров: |
Страница аннотации: | 113 | PDF полного текста: | 74 | Список литературы: | 27 |
|