Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2017, том 9, выпуск 5, страницы 837–850
DOI: https://doi.org/10.20537/2076-7633-2017-9-5-837-850
(Mi crm103)
 

Эта публикация цитируется в 5 научных статьях (всего в 5 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Новый метод стилеметрии на основе статистики числительных

А. В. Зенковab

a Уральский федеральный университет, Россия, 620002, г. Екатеринбург, ул. Мира, д. 19
b Уральский государственный экономический университет, Россия, 620144, г. Екатеринбург, ул. 8 Марта, д. 62
Список литературы:
Аннотация: Предложен новый метод статистического анализа текстов. Исследовано распределение частот различных первых значащих цифр в числительных англоязычных текстов. Учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно. Предварительно из текста удаляются случайно попавшие в него числительные, не отражающие авторский замысел (номера страниц, маркеры списков, идиоматические выражения, устойчивые обороты речи и тому подобное). Обнаружено, что для сборных текстов разного авторства частоты первых значащих цифр приближенно соответствуют известному закону Бенфорда, но с резким преобладанием встречаемости единицы. В связных авторских текстах возникают характерные отклонения от закона Бенфорда; показано, что эти отклонения являются статистически устойчивыми и значимыми авторскими особенностями, позволяющими при определенных условиях ответить на вопрос об авторстве и различить тексты разных авторов. Требуется, чтобы текст был достаточно длинным (не менее чем порядка $200$ кБ). Распределение первых значащих цифр конца ряда $\{1, 2, \dots , 8, 9\}$ подвержено сильным флуктуациям и не показательно для нашей цели. Цель теоретического обоснования найденной эмпирической закономерности в работе не ставится, но продемонстрировано ее практическое использование для атрибуции текстов. Предлагаемый подход и сделанные выводы подкреплены примерами компьютерного анализа художественных текстов У. М. Теккерея, М. Твена, Р. Л. Стивенсона, Дж. Джойса, сестер Бронте, Дж. Остин. На основе разработанной методологии рассмотрены проблемы авторства текста, ранее приписывавшегося Л. Ф. Бауму (результат согласуется с полученным другими методами), а также известного романа Харпер Ли «Убить пересмешника» показано, что к написанию первоначального варианта этой книги («Пойди, поставь сторожа») мог быть причастен Трумен Капоте, но финальный текст, вероятно, принадлежит Харпер Ли. Результаты подтверждены на основе параметрического критерия Пирсона, а также непараметрических $\mathrm{U}$-критерия Манна–Уитни и критерия Крускала–Уоллиса.
Ключевые слова: атрибуция текстов, первая значащая цифра числительных.
Поступила в редакцию: 01.07.2017
Принята в печать: 14.08.2017
Тип публикации: Статья
УДК: 51-78, 519.234.3, 519.257, 81-139
Образец цитирования: А. В. Зенков, “Новый метод стилеметрии на основе статистики числительных”, Компьютерные исследования и моделирование, 9:5 (2017), 837–850
Цитирование в формате AMSBIB
\RBibitem{Zen17}
\by А.~В.~Зенков
\paper Новый метод стилеметрии на основе статистики числительных
\jour Компьютерные исследования и моделирование
\yr 2017
\vol 9
\issue 5
\pages 837--850
\mathnet{http://mi.mathnet.ru/crm103}
\crossref{https://doi.org/10.20537/2076-7633-2017-9-5-837-850}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm103
  • https://www.mathnet.ru/rus/crm/v9/i5/p837
  • Эта публикация цитируется в следующих 5 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
    Статистика просмотров:
    Страница аннотации:204
    PDF полного текста:96
    Список литературы:36
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024