Семинары
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Календарь
Поиск
Регистрация семинара

RSS
Ближайшие семинары




Актуальные проблемы прикладной математики
19 февраля 2021 г., г. Новосибирск, Математический центр в Академгородке, Новосибирский государственный университет
 


Байесовская и классическая регуляризация в вероятностном тематическом моделировании

К. В. Воронцов

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный

Количество просмотров:
Эта страница:100
Youtube:



Аннотация: Вероятностная тематическая модель (ВТМ) коллекции текстовых документов отвечает на вопросы, из каких тем состоит коллекция, каково распределение тем в каждом документе, и каким распределением на множестве слов описывается каждая тема. Такие модели используются для «мягкой кластеризации» больших объёмов текстовых данных, когда предполагается, что каждый документ не может быть отнесён лишь к одному кластеру-теме и может содержать в себе несколько различных тем. Приложения ВТМ не ограничиваются анализом текстов, охватывая рекомендательные системы и анализ транзакционных данных весьма общей природы. Задача тематического моделирования сводится к низкоранговому стохастическому матричному разложению и потому является некорректно поставленной. Большое разнообразие тематических моделей (в литературе их предложено много сотен) объясняется богатыми возможностями для регуляризации, связанными с учётом разного рода дополнительных данных и лингвистических особенностей текстов естественного языка. Наиболее известная модель LDA (Latent Dirichlet Allocation), предложенная в 2003 году, предопределила дальнейшее развитие ВТМ в рамках байесовской регуляризации. В докладе обосновывается идея, что такое решение было «прыжком через ступень развития». Более логичным и рациональным было бы развитие ВТМ сначала в рамках классической регуляризации. Предлагаемая теория аддитивной регуляризации тематических моделей (ARTM) восполняет это пробел. Она не уступает по выразительности байесовским моделям, но при этом радикально упрощает математический формализм. По сути, в нашем подходе тематическое моделирование становится «теорией одной единственной леммы».
 
  Обратная связь:
 Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024