Аннотация:
Тематическое моделирование — это область статистического анализа текстов, активно развивающаяся последние 15 лет. Тематическая модель коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова образуют каждую тему. Построение тематической модели сводится к решению некорректно поставленной задачи матричного разложения. Для доопределения решения используются дополнительные критерии-регуляризаторы. Тематическое моделирование отличается огромным разнообразием регуляризаторов, с помощью которых можно строить тематические иерархии, учитывать лингвистические ограничения, вовлекать нетекстовые данные о времени, авторах, пользователях, ссылках, взаимосвязях. В лекции будет рассказано, как все эти ограничения формализуются на языке регуляризации, как их можно комбинировать друг с другом для построения моделей с заданными свойствами и как теория аддитивной регуляризации приводит к модульной технологии тематического моделирования.