Семинары: К. В. Воронцов, Байесовская и классическая регуляризация в вероятностном тематическом моделировании

Семинары

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Календарь
	Поиск
	Регистрация семинара

	RSS
	Ближайшие семинары

Актуальные проблемы прикладной математики
19 февраля 2021 г., г. Новосибирск, Математический центр в Академгородке, Новосибирский государственный университет

Байесовская и классическая регуляризация в вероятностном тематическом моделировании

К. В. Воронцов

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный

Количество просмотров:
Эта страница:	100
Youtube:

https://www.youtube.com/watch?v=MhNbccnVk5Y

Аннотация: Вероятностная тематическая модель (ВТМ) коллекции текстовых документов отвечает на вопросы, из каких тем состоит коллекция, каково распределение тем в каждом документе, и каким распределением на множестве слов описывается каждая тема. Такие модели используются для «мягкой кластеризации» больших объёмов текстовых данных, когда предполагается, что каждый документ не может быть отнесён лишь к одному кластеру-теме и может содержать в себе несколько различных тем. Приложения ВТМ не ограничиваются анализом текстов, охватывая рекомендательные системы и анализ транзакционных данных весьма общей природы. Задача тематического моделирования сводится к низкоранговому стохастическому матричному разложению и потому является некорректно поставленной. Большое разнообразие тематических моделей (в литературе их предложено много сотен) объясняется богатыми возможностями для регуляризации, связанными с учётом разного рода дополнительных данных и лингвистических особенностей текстов естественного языка. Наиболее известная модель LDA (Latent Dirichlet Allocation), предложенная в 2003 году, предопределила дальнейшее развитие ВТМ в рамках байесовской регуляризации. В докладе обосновывается идея, что такое решение было «прыжком через ступень развития». Более логичным и рациональным было бы развитие ВТМ сначала в рамках классической регуляризации. Предлагаемая теория аддитивной регуляризации тематических моделей (ARTM) восполняет это пробел. Она не уступает по выразительности байесовским моделям, но при этом радикально упрощает математический формализм. По сути, в нашем подходе тематическое моделирование становится «теорией одной единственной леммы».

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы