Математическое моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Матем. моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Математическое моделирование, 2022, том 34, номер 9, страницы 3–20
DOI: https://doi.org/10.20948/mm-2022-09-01
(Mi mm4401)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Алгоритм коррекции метода биграмм в задаче идентификации автора текста

М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов

Институт прикладной математики им. М.В. Келдыша РАН
Список литературы:
Аннотация: Предложена модель распознавания авторов литературных текстов по близости отдельного текста к эталону автора и алгоритм коррекции возможных ошибок идентификации. Эталоном является эмпирическое распределение частот пар буквосочетаний по анализу достоверно известных произведений автора. Близость между текстами понимается в смысле близости частот биграмм в норме L1. Автором неизвестного текста назначается тот, к эталону которого тестируемый текст находится ближе всего. Для идентификации используется библиотека авторов, каждый из которых имеет достаточно большое количество произведений, определяющих соответствующие эталоны двухбуквенных сочетаний. Тестирование данного метода идентификации на авторах библиотеки показало, что он является весьма точным. В анализируемом корпусе текстов были собраны 1783 текста 100 авторов, ошибка распознавания наилучшим методом оказалась равной 0.12. Важно, что после исключения неверно распознанных текстов осталась библиотека из 88 авторов и 1450 текстов, каждый из которых был идентифицирован безошибочно. Исследуемой проблемой является оценка вероятности того, что среди эталонов библиотеки нет эталона автора тестируемого текста. Для ее решения в работе проведен анализ зависимости вероятности ошибочной идентификации от длины текста. На примере безошибочно определяемой подгруппы текстов выяснилось, что эмпирическая вероятность правильного распознавания фрагмента текста хотя и уменьшается с уменьшением длины фрагмента, все же превосходит 0.5 вплоть до фрагментации текста на 10 частей. При исключении из рассмотрения правильного эталона таковым назначается второй по близости эталон, однако он оказывается неустойчивым: неоднозначность такой идентификации автора фрагментов наступает уже при разрезании текста на 4 фрагмента. Тем самым устойчивость идентификации автора фрагментов текста можно предложить в качестве нового критерия корректности метода.
Ключевые слова: текст, автор, распределение частот буквосочетаний, идентификация фрагмента, коррекция ошибки.
Поступила в редакцию: 07.04.2022
Исправленный вариант: 23.05.2022
Принята в печать: 27.06.2022
Англоязычная версия:
Mathematical Models and Computer Simulations, 2023, Volume 15, Issue 2, Pages 245–254
DOI: https://doi.org/10.1134/S2070048223020175
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов, “Алгоритм коррекции метода биграмм в задаче идентификации автора текста”, Матем. моделирование, 34:9 (2022), 3–20; Math. Models Comput. Simul., 15:2 (2023), 245–254
Цитирование в формате AMSBIB
\RBibitem{VorKisOrl22}
\by М.~Ю.~Воронина, А.~А.~Кислицын, Ю.~Н.~Орлов
\paper Алгоритм коррекции метода биграмм в задаче идентификации автора текста
\jour Матем. моделирование
\yr 2022
\vol 34
\issue 9
\pages 3--20
\mathnet{http://mi.mathnet.ru/mm4401}
\crossref{https://doi.org/10.20948/mm-2022-09-01}
\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=4515346}
\transl
\jour Math. Models Comput. Simul.
\yr 2023
\vol 15
\issue 2
\pages 245--254
\crossref{https://doi.org/10.1134/S2070048223020175}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mm4401
  • https://www.mathnet.ru/rus/mm/v34/i9/p3
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Математическое моделирование
    Статистика просмотров:
    Страница аннотации:220
    PDF полного текста:33
    Список литературы:44
    Первая страница:9
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024