|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Сходимость алгоритма аддитивной регуляризации тематических моделей
И. А. Ирхин, К. В. Воронцов Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный
Аннотация:
Задача вероятностного тематического моделирования заключается в следующем. По заданной коллекции текстовых документов требуется найти условное распределение каждого документа по темам и условное распределение каждой темы по словам (или термам). Для решения данной задачи используется принцип максимума правдоподобия. Задача имеет в общем случае бесконечное множество решений, т. е. является некорректно поставленной по Адамару. В рамках подхода ARTM - аддитивной регуляризации тематических моделей к основному критерию добавляется взвешенная сумма нескольких дополнительных критериев регуляризации. Численный метод для решения данной задачи - разновидность итерационного EM-алгоритма, который выписывается в общем виде для произвольного гладкого регуляризатора, в том числе и для линейной комбинации гладких регуляризаторов. В работе исследуется вопрос о сходимости данного итерационного процесса. Получены достаточные условия сходимости, при которых процесс сходится к стационарной точке регуляризованного логарифма правдоподобия. Полученные ограничения на регуляризатор оказались не слишком обременительными. В работе даны их интерпретации с точки зрения практической реализации алгоритма. Предложена модификация алгоритма, которая улучшает его сходимость без дополнительных затрат времени и памяти. В экспериментах на коллекции новостных текстов показано, что данная модификации позволяет не только ускорить сходимость, но и улучшить значение оптимизируемого критерия.
Ключевые слова:
обработка текстов естественного языка, вероятностное тематическое моделирование, вероятностный латентный семантический анализ (PLSA), латентное размещение Дирихле (LDA), аддитивная регуляризация тематических моделей (ARTM), EM-алгоритм, достаточные условия сходимости.
Поступила в редакцию: 20.07.2020 Исправленный вариант: 06.08.2020 Принята в печать: 17.08.2020
Образец цитирования:
И. А. Ирхин, К. В. Воронцов, “Сходимость алгоритма аддитивной регуляризации тематических моделей”, Тр. ИММ УрО РАН, 26, № 3, 2020, 56–68; Proc. Steklov Inst. Math. (Suppl.), 315, suppl. 1 (2021), S128–S139
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/timm1745 https://www.mathnet.ru/rus/timm/v26/i3/p56
|
Статистика просмотров: |
Страница аннотации: | 250 | PDF полного текста: | 84 | Список литературы: | 29 | Первая страница: | 8 |
|