Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2021, том 28, номер 3, страницы 250–259
DOI: https://doi.org/10.18255/1818-1015-2021-3-250-259
(Mi mais748)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Theory of data

Comparison of style features for the authorship verification of literary texts
[Сравнение стилистических характеристик для верификации авторов художественных текстов]

K. V. Lagutina

P. G. Demidov Yaroslavl State University, 14 Sovetskaya str., Yaroslavl 150003, Russia
Список литературы:
Аннотация: В статье сравниваются характеристики уровней символов, слов и ритма для верификации авторства художественных текстов 19-21-го веков. Корпуса текстов содержат фрагменты романов, каждый фрагмент имеет размер около 50 000 знаков. Для каждого автора приводится 40 фрагментов. Рассматриваются по 20 авторов, писавших на английском, русском, французском языках, и 8 испаноязычных авторов.
Авторы статьи используют существующие алгоритмы для вычисления популярных в современной компьютерной лингвистике низкоуровневых характеристик и распространённых в художественной литературе ритмических характеристик. Низкоуровневые характеристики включают в себя n-граммы слов, частоты встречаемости букв и знаков пунктуации, среднюю длину слова и предложения и т. д. Ритмические характеристики основаны на лексико-грамматических средствах: анафоре, эпифоре, симплоке, апозиопезе, эпаналепсисе, анадиплозисе, диакопе, эпизевксисе, хиазме, многосоюзие, повторяющихся восклицательных и вопросительных предложениях. Данные характеристики включают в себя частоты появления отдельных ритмических средств на 100 предложений, количество уникальных слов в аспектах ритма, доли существительных, прилагательных, наречий и глаголов в аспектах ритма. Верификация авторов рассматривается как задача бинарной классификации: принадлежит текст конкретному автору или нет. В качестве алгоритмов классификации рассматриваются AdaBoost и нейросеть со слоем LSTM. Эксперименты демонстрируют эффективность ритмических характеристик при верификации конкретных авторов и превосходство комбинаций типов характеристик над отдельными типами характеристик в среднем. Лучшее значение точности, полноты и F-меры для классификатора AdaBoost превышает 90%, когда комбинируются все три типа характеристик.
Ключевые слова: стилометрия, обработка естественного языка, стилистические характеристики, ритмические характеристики, верификация авторов.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 20-37-90045
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 20-37-90045.
Поступила в редакцию: 04.05.2021
Исправленный вариант: 20.08.2021
Принята в печать: 25.08.2021
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Язык публикации: английский
Образец цитирования: K. V. Lagutina, “Comparison of style features for the authorship verification of literary texts”, Модел. и анализ информ. систем, 28:3 (2021), 250–259
Цитирование в формате AMSBIB
\RBibitem{Lag21}
\by K.~V.~Lagutina
\paper Comparison of style features for the authorship verification of literary texts
\jour Модел. и анализ информ. систем
\yr 2021
\vol 28
\issue 3
\pages 250--259
\mathnet{http://mi.mathnet.ru/mais748}
\crossref{https://doi.org/10.18255/1818-1015-2021-3-250-259}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais748
  • https://www.mathnet.ru/rus/mais/v28/i3/p250
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:110
    PDF полного текста:65
    Список литературы:26
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024