|
|
Семинар лаборатории ПреМоЛаб
28 февраля 2013 г. 17:00, г. Москва, Институт проблем передачи информации им. А. А. Харкевича РАН (Б. Каретный пер., 19, метро «Цветной бульвар»), ауд. 615
|
|
|
|
|
|
Статистический анализ литературных текстов
Ю. Н. Орловab a Институт прикладной математики им. М. В. Келдыша РАН, г. Москва
b Московский физико-технический институт (государственный университет)
|
Количество просмотров: |
Эта страница: | 760 | Материалы: | 6 |
|
Аннотация:
Рассматриваются задачи классификации и идентификации литературных текстов, написанных на европейских языках, на основе анализа статистических закономерностей буквенных распределений, т.е. вероятностей встречаемости букв и буквосочетаний. Тексты классифицируются по авторам, жанрам и иным атрибутам текста.
В основе лежит кинетический подход к анализу нестационарных временных рядов, каковыми являются последовательности букв в книге. Для выборочного распределения фрагмента текста по буквам вводится оператор эволюции и выписывается уравнение Лиувилля. Строится спектральный портрет этого оператора и находятся инвариантные подпространства, специфические для каждого автора. Даются оценки на точность метода.
При идентификации автора неизвестного текста внутри библиотеки известных текстов используется норма в пространстве суммируемых функций для определения расстояния между распределениями текста по буквосочетаниям и выборе наилучшего (ближайшего по норме) варианта. При изучении текста на однородность (в случае нескольких авторов) применяется индикативная статистика «горизонтных рядов» для распределения расстояний между одинаковыми буквами.
Будет рассказан статистический подход к решению таких задач, как установление наиболее вероятного автора неизвестного произведения, переводное это произведение или написанное на языке автора, сколько авторов участвовало в его написании, каков вероятный пол автора (конечно, если автор не опознан).
Условие отбора авторов для тестирования метода идентификации состояло в том, что у каждого из них должно быть не менее 10 больших произведений. Для таких авторов на достаточно большой выборке (300 авторов, 3000 текстов) метод, основанный на анализе 3-буквенных сочетаний, показал абсолютную точность идентификации.
Презентации:
Доклад_Тексты_2013.ppt (8.0 Mb)
|
|