М. Ю. Воронина, Ю. Н. Орлов, “Определение автора текста методом сегментации”, Компьютерные исследования и моделирование, 14:5 (2022), 1199

Компьютерные исследования и моделирование

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Компьютерные исследования и моделирование, 2022, том 14, выпуск 5, страницы 1199–1210
DOI: https://doi.org/10.20537/2076-7633-2022-14-5-1199-1210 (Mi crm1026)

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Определение автора текста методом сегментации

М. Ю. Воронина, Ю. Н. Орлов

Федеральный исследовательский центр «Институт прикладной математики им. М. В. Келдыша Российской академии наук», Россия, 125047, г. Москва, Миусская пл., д. 4

PDF полного текста (765 kB) Список цитирования (3)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.20537/2076-7633-2022-14-5-1199-1210

Аннотация: В работе описывается метод распознавания авторов литературных текстов по близости фрагментов, на которые разделен отдельный текст, к эталону автора. Эталоном является эмпирическое распределение частот буквосочетаний, построенное по обучающей выборке, куда вошли экспертно отобранные достоверно известные произведения данного автора. Совокупность эталонов разных авторов образует библиотеку, внутри которой и решается задача об идентификации автора неизвестного текста. Близость между текстами понимается в смысле нормы в L1 для вектора частот буквосочетаний, который строится для каждого фрагмента и для текста в целом. Автором неизвестного текста назначается тот, эталон которого чаще всего выбирается в качестве ближайшего для набора фрагментов, на которые разделен текст. Длина фрагмента оптимизируется исходя из принципа максимального различия расстояний от фрагментов до эталонов в задаче распознавания «свой-чужой». Тестирование метода проведено на корпусе отечественных и зарубежных (в переводе) авторов. Были собраны 1783 текста 100 авторов суммарным объемом примерно 700 млн знаков. Чтобы исключить тенденциозность отбора авторов, рассматривались авторы, фамилии которых начинались на одну и ту же букву (в данном случае Л). Ошибка идентификации по биграммам составила 12 %. Наряду с достаточно высокой точностью данный метод обладает еще одним важным свойством: он позволяет оценить вероятность того, что эталон автора рассматриваемого текста в библиотеке отсутствует. Эта вероятность может быть оценена по результатам статистики ближайших эталонов для малых фрагментов текста. В работе исследуются также статистические цифровые портреты писателей: это совместные эмпирические распределения вероятности того, что некоторая доля текста идентифицируется на заданном уровне доверия. Практическая важность этих статистик в том, что носители соответствующих распределений практически не пересекаются для своих и чужих эталонов, что позволяет распознать эталонное распределение буквосочетаний на высоком уровне доверия.

Ключевые слова: эмпирическое распределение частот, биграммы, идентификация автора, литературный текст, ближайший эталон.

Финансовая поддержка	Номер гранта
Министерство науки и высшего образования Российской Федерации	075-15-2020- 808
Исследование выполнено при поддержке Министерства науки и высшего образования РФ, договор № 075-15-2020- 808.

Поступила в редакцию: 27.06.2022
Исправленный вариант: 09.08.2022
Принята в печать: 12.08.2022

Тип публикации: Статья

УДК: 519.243

Образец цитирования: М. Ю. Воронина, Ю. Н. Орлов, “Определение автора текста методом сегментации”, Компьютерные исследования и моделирование, 14:5 (2022), 1199–1210

Цитирование в формате AMSBIB

\RBibitem{VorOrl22}

\by М.~Ю.~Воронина, Ю.~Н.~Орлов

\paper Определение автора текста методом сегментации

\jour Компьютерные исследования и моделирование

\yr 2022

\vol 14

\issue 5

\pages 1199--1210

\mathnet{http://mi.mathnet.ru/crm1026}

\crossref{https://doi.org/10.20537/2076-7633-2022-14-5-1199-1210}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/crm1026

https://www.mathnet.ru/rus/crm/v14/i5/p1199

Эта публикация цитируется в следующих 3 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Компьютерные исследования и моделирование

Статистика просмотров:
Страница аннотации:	69
PDF полного текста:	27
Список литературы:	20

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы