Труды Института математики и механики УрО РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Тр. ИММ УрО РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды Института математики и механики УрО РАН, 2020, том 26, номер 3, страницы 56–68
DOI: https://doi.org/10.21538/0134-4889-2020-26-3-56-68
(Mi timm1745)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Сходимость алгоритма аддитивной регуляризации тематических моделей

И. А. Ирхин, К. В. Воронцов

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный
Список литературы:
Аннотация: Задача вероятностного тематического моделирования заключается в следующем. По заданной коллекции текстовых документов требуется найти условное распределение каждого документа по темам и условное распределение каждой темы по словам (или термам). Для решения данной задачи используется принцип максимума правдоподобия. Задача имеет в общем случае бесконечное множество решений, т. е. является некорректно поставленной по Адамару. В рамках подхода ARTM - аддитивной регуляризации тематических моделей к основному критерию добавляется взвешенная сумма нескольких дополнительных критериев регуляризации. Численный метод для решения данной задачи - разновидность итерационного EM-алгоритма, который выписывается в общем виде для произвольного гладкого регуляризатора, в том числе и для линейной комбинации гладких регуляризаторов. В работе исследуется вопрос о сходимости данного итерационного процесса. Получены достаточные условия сходимости, при которых процесс сходится к стационарной точке регуляризованного логарифма правдоподобия. Полученные ограничения на регуляризатор оказались не слишком обременительными. В работе даны их интерпретации с точки зрения практической реализации алгоритма. Предложена модификация алгоритма, которая улучшает его сходимость без дополнительных затрат времени и памяти. В экспериментах на коллекции новостных текстов показано, что данная модификации позволяет не только ускорить сходимость, но и улучшить значение оптимизируемого критерия.
Ключевые слова: обработка текстов естественного языка, вероятностное тематическое моделирование, вероятностный латентный семантический анализ (PLSA), латентное размещение Дирихле (LDA), аддитивная регуляризация тематических моделей (ARTM), EM-алгоритм, достаточные условия сходимости.
Финансовая поддержка Номер гранта
Фонд поддержки проектов Национальной технологической инициативы 7/1251/2019
Российский фонд фундаментальных исследований 20-07-00936
Работа выполнена в рамках проекта “Средства интеллектуального анализа больших массивов текстов” по Программе ЦК НТИ “Центр хранения и анализа больших данных”, поддерживаемого Министерством науки и высшего образования Российской Федерации по договору МГУ им. М.В. Ломоносова с Фондом поддержки проектов НТИ от 15.08.2019 № 7/1251/2019. Работа также частично поддержана РФФИ, проект 20-07-00936.
Поступила в редакцию: 20.07.2020
Исправленный вариант: 06.08.2020
Принята в печать: 17.08.2020
Англоязычная версия:
Proceedings of the Steklov Institute of Mathematics (Supplementary issues), 2021, Volume 315, Issue 1, Pages S128–S139
DOI: https://doi.org/10.1134/S0081543821060110
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.853.4
MSC: 90C30, 68T50
Образец цитирования: И. А. Ирхин, К. В. Воронцов, “Сходимость алгоритма аддитивной регуляризации тематических моделей”, Тр. ИММ УрО РАН, 26, № 3, 2020, 56–68; Proc. Steklov Inst. Math. (Suppl.), 315, suppl. 1 (2021), S128–S139
Цитирование в формате AMSBIB
\RBibitem{IrkVor20}
\by И.~А.~Ирхин, К.~В.~Воронцов
\paper Сходимость алгоритма аддитивной регуляризации тематических моделей
\serial Тр. ИММ УрО РАН
\yr 2020
\vol 26
\issue 3
\pages 56--68
\mathnet{http://mi.mathnet.ru/timm1745}
\crossref{https://doi.org/10.21538/0134-4889-2020-26-3-56-68}
\elib{https://elibrary.ru/item.asp?id=43893863}
\transl
\jour Proc. Steklov Inst. Math. (Suppl.)
\yr 2021
\vol 315
\issue , suppl. 1
\pages S128--S139
\crossref{https://doi.org/10.1134/S0081543821060110}
\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000592231900006}
\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85095712293}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/timm1745
  • https://www.mathnet.ru/rus/timm/v26/i3/p56
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды Института математики и механики УрО РАН
    Статистика просмотров:
    Страница аннотации:250
    PDF полного текста:84
    Список литературы:29
    Первая страница:8
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024