Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2022, том 14, выпуск 5, страницы 1199–1210
DOI: https://doi.org/10.20537/2076-7633-2022-14-5-1199-1210
(Mi crm1026)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Определение автора текста методом сегментации

М. Ю. Воронина, Ю. Н. Орлов

Федеральный исследовательский центр «Институт прикладной математики им. М. В. Келдыша Российской академии наук», Россия, 125047, г. Москва, Миусская пл., д. 4
Список литературы:
Аннотация: В работе описывается метод распознавания авторов литературных текстов по близости фрагментов, на которые разделен отдельный текст, к эталону автора. Эталоном является эмпирическое распределение частот буквосочетаний, построенное по обучающей выборке, куда вошли экспертно отобранные достоверно известные произведения данного автора. Совокупность эталонов разных авторов образует библиотеку, внутри которой и решается задача об идентификации автора неизвестного текста. Близость между текстами понимается в смысле нормы в L1 для вектора частот буквосочетаний, который строится для каждого фрагмента и для текста в целом. Автором неизвестного текста назначается тот, эталон которого чаще всего выбирается в качестве ближайшего для набора фрагментов, на которые разделен текст. Длина фрагмента оптимизируется исходя из принципа максимального различия расстояний от фрагментов до эталонов в задаче распознавания «свой-чужой». Тестирование метода проведено на корпусе отечественных и зарубежных (в переводе) авторов. Были собраны 1783 текста 100 авторов суммарным объемом примерно 700 млн знаков. Чтобы исключить тенденциозность отбора авторов, рассматривались авторы, фамилии которых начинались на одну и ту же букву (в данном случае Л). Ошибка идентификации по биграммам составила 12 %. Наряду с достаточно высокой точностью данный метод обладает еще одним важным свойством: он позволяет оценить вероятность того, что эталон автора рассматриваемого текста в библиотеке отсутствует. Эта вероятность может быть оценена по результатам статистики ближайших эталонов для малых фрагментов текста. В работе исследуются также статистические цифровые портреты писателей: это совместные эмпирические распределения вероятности того, что некоторая доля текста идентифицируется на заданном уровне доверия. Практическая важность этих статистик в том, что носители соответствующих распределений практически не пересекаются для своих и чужих эталонов, что позволяет распознать эталонное распределение буквосочетаний на высоком уровне доверия.
Ключевые слова: эмпирическое распределение частот, биграммы, идентификация автора, литературный текст, ближайший эталон.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации 075-15-2020- 808
Исследование выполнено при поддержке Министерства науки и высшего образования РФ, договор № 075-15-2020- 808.
Поступила в редакцию: 27.06.2022
Исправленный вариант: 09.08.2022
Принята в печать: 12.08.2022
Тип публикации: Статья
УДК: 519.243
Образец цитирования: М. Ю. Воронина, Ю. Н. Орлов, “Определение автора текста методом сегментации”, Компьютерные исследования и моделирование, 14:5 (2022), 1199–1210
Цитирование в формате AMSBIB
\RBibitem{VorOrl22}
\by М.~Ю.~Воронина, Ю.~Н.~Орлов
\paper Определение автора текста методом сегментации
\jour Компьютерные исследования и моделирование
\yr 2022
\vol 14
\issue 5
\pages 1199--1210
\mathnet{http://mi.mathnet.ru/crm1026}
\crossref{https://doi.org/10.20537/2076-7633-2022-14-5-1199-1210}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm1026
  • https://www.mathnet.ru/rus/crm/v14/i5/p1199
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
    Статистика просмотров:
    Страница аннотации:69
    PDF полного текста:27
    Список литературы:20
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024