Семинары
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Календарь
Поиск
Регистрация семинара

RSS
Ближайшие семинары




Семинар лаборатории ПреМоЛаб
28 февраля 2013 г. 17:00, г. Москва, Институт проблем передачи информации им. А. А. Харкевича РАН (Б. Каретный пер., 19, метро «Цветной бульвар»), ауд. 615
 


Статистический анализ литературных текстов

Ю. Н. Орловab

a Институт прикладной математики им. М. В. Келдыша РАН, г. Москва
b Московский физико-технический институт (государственный университет)
Презентации:
PowerPoint 8.0 Mb

Количество просмотров:
Эта страница:719
Материалы:3

Аннотация: Рассматриваются задачи классификации и идентификации литературных текстов, написанных на европейских языках, на основе анализа статистических закономерностей буквенных распределений, т.е. вероятностей встречаемости букв и буквосочетаний. Тексты классифицируются по авторам, жанрам и иным атрибутам текста.
В основе лежит кинетический подход к анализу нестационарных временных рядов, каковыми являются последовательности букв в книге. Для выборочного распределения фрагмента текста по буквам вводится оператор эволюции и выписывается уравнение Лиувилля. Строится спектральный портрет этого оператора и находятся инвариантные подпространства, специфические для каждого автора. Даются оценки на точность метода.
При идентификации автора неизвестного текста внутри библиотеки известных текстов используется норма в пространстве суммируемых функций для определения расстояния между распределениями текста по буквосочетаниям и выборе наилучшего (ближайшего по норме) варианта. При изучении текста на однородность (в случае нескольких авторов) применяется индикативная статистика «горизонтных рядов» для распределения расстояний между одинаковыми буквами.
Будет рассказан статистический подход к решению таких задач, как установление наиболее вероятного автора неизвестного произведения, переводное это произведение или написанное на языке автора, сколько авторов участвовало в его написании, каков вероятный пол автора (конечно, если автор не опознан).
Условие отбора авторов для тестирования метода идентификации состояло в том, что у каждого из них должно быть не менее 10 больших произведений. Для таких авторов на достаточно большой выборке (300 авторов, 3000 текстов) метод, основанный на анализе 3-буквенных сочетаний, показал абсолютную точность идентификации.

Презентации: Доклад_Тексты_2013.ppt (8.0 Mb)
 
  Обратная связь:
 Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024