Семинары: Ю. Н. Орлов, Статистический анализ литературных текстов

Семинары

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Календарь
	Поиск
	Регистрация семинара

	RSS
	Ближайшие семинары

Семинар лаборатории ПреМоЛаб
28 февраля 2013 г. 17:00, г. Москва, Институт проблем передачи информации им. А. А. Харкевича РАН (Б. Каретный пер., 19, метро «Цветной бульвар»), ауд. 615

Статистический анализ литературных текстов

Ю. Н. Орлов^ab

^a Институт прикладной математики им. М. В. Келдыша РАН, г. Москва
^b Московский физико-технический институт (государственный университет)

*Презентации:*
	PowerPoint	8.0 Mb

Количество просмотров:
Эта страница:	719
Материалы:	3

Аннотация: Рассматриваются задачи классификации и идентификации литературных текстов, написанных на европейских языках, на основе анализа статистических закономерностей буквенных распределений, т.е. вероятностей встречаемости букв и буквосочетаний. Тексты классифицируются по авторам, жанрам и иным атрибутам текста.
В основе лежит кинетический подход к анализу нестационарных временных рядов, каковыми являются последовательности букв в книге. Для выборочного распределения фрагмента текста по буквам вводится оператор эволюции и выписывается уравнение Лиувилля. Строится спектральный портрет этого оператора и находятся инвариантные подпространства, специфические для каждого автора. Даются оценки на точность метода.
При идентификации автора неизвестного текста внутри библиотеки известных текстов используется норма в пространстве суммируемых функций для определения расстояния между распределениями текста по буквосочетаниям и выборе наилучшего (ближайшего по норме) варианта. При изучении текста на однородность (в случае нескольких авторов) применяется индикативная статистика «горизонтных рядов» для распределения расстояний между одинаковыми буквами.
Будет рассказан статистический подход к решению таких задач, как установление наиболее вероятного автора неизвестного произведения, переводное это произведение или написанное на языке автора, сколько авторов участвовало в его написании, каков вероятный пол автора (конечно, если автор не опознан).
Условие отбора авторов для тестирования метода идентификации состояло в том, что у каждого из них должно быть не менее 10 больших произведений. Для таких авторов на достаточно большой выборке (300 авторов, 3000 текстов) метод, основанный на анализе 3-буквенных сочетаний, показал абсолютную точность идентификации.

Презентации:

Доклад_Тексты_2013.ppt (8.0 Mb)

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы