Аннотация:
Вероятностная тематическая модель (ВТМ) коллекции текстовых документов отвечает на вопросы, из каких тем состоит коллекция, каково распределение тем в каждом документе, и каким распределением на множестве слов описывается каждая тема. Такие модели используются для «мягкой кластеризации» больших объёмов текстовых данных, когда предполагается, что каждый документ не может быть отнесён лишь к одному кластеру-теме и может содержать в себе несколько различных тем. Приложения ВТМ не ограничиваются анализом текстов, охватывая рекомендательные системы и анализ транзакционных данных весьма общей природы. Задача тематического моделирования сводится к низкоранговому стохастическому матричному разложению и потому является некорректно поставленной. Большое разнообразие тематических моделей (в литературе их предложено много сотен) объясняется богатыми возможностями для регуляризации, связанными с учётом разного рода дополнительных данных и лингвистических особенностей текстов естественного языка. Наиболее известная модель LDA (Latent Dirichlet Allocation), предложенная в 2003 году, предопределила дальнейшее развитие ВТМ в рамках байесовской регуляризации. В докладе обосновывается идея, что такое решение было «прыжком через ступень развития». Более логичным и рациональным было бы развитие ВТМ сначала в рамках классической регуляризации. Предлагаемая теория аддитивной регуляризации тематических моделей (ARTM) восполняет это пробел. Она не уступает по выразительности байесовским моделям, но при этом радикально упрощает математический формализм. По сути, в нашем подходе тематическое моделирование становится «теорией одной единственной леммы».