И. А. Ирхин, К. В. Воронцов, “Сходимость алгоритма аддитивной регуляризации тематических моделей”, Тр. ИММ УрО РАН, 26, № 3, 2020, 56–68; Proc. Steklov Inst. Math. (Suppl.), 315, suppl. 1 (2021), S128

Труды Института математики и механики УрО РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Тр. ИММ УрО РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды Института математики и механики УрО РАН, 2020, том 26, номер 3, страницы 56–68
DOI: https://doi.org/10.21538/0134-4889-2020-26-3-56-68 (Mi timm1745)

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Сходимость алгоритма аддитивной регуляризации тематических моделей

И. А. Ирхин, К. В. Воронцов

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный

PDF полного текста (258 kB) Список цитирования (2)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.21538/0134-4889-2020-26-3-56-68

Аннотация: Задача вероятностного тематического моделирования заключается в следующем. По заданной коллекции текстовых документов требуется найти условное распределение каждого документа по темам и условное распределение каждой темы по словам (или термам). Для решения данной задачи используется принцип максимума правдоподобия. Задача имеет в общем случае бесконечное множество решений, т. е. является некорректно поставленной по Адамару. В рамках подхода ARTM - аддитивной регуляризации тематических моделей к основному критерию добавляется взвешенная сумма нескольких дополнительных критериев регуляризации. Численный метод для решения данной задачи - разновидность итерационного EM-алгоритма, который выписывается в общем виде для произвольного гладкого регуляризатора, в том числе и для линейной комбинации гладких регуляризаторов. В работе исследуется вопрос о сходимости данного итерационного процесса. Получены достаточные условия сходимости, при которых процесс сходится к стационарной точке регуляризованного логарифма правдоподобия. Полученные ограничения на регуляризатор оказались не слишком обременительными. В работе даны их интерпретации с точки зрения практической реализации алгоритма. Предложена модификация алгоритма, которая улучшает его сходимость без дополнительных затрат времени и памяти. В экспериментах на коллекции новостных текстов показано, что данная модификации позволяет не только ускорить сходимость, но и улучшить значение оптимизируемого критерия.

Ключевые слова: обработка текстов естественного языка, вероятностное тематическое моделирование, вероятностный латентный семантический анализ (PLSA), латентное размещение Дирихле (LDA), аддитивная регуляризация тематических моделей (ARTM), EM-алгоритм, достаточные условия сходимости.

Финансовая поддержка	Номер гранта
Фонд поддержки проектов Национальной технологической инициативы	7/1251/2019
Российский фонд фундаментальных исследований	20-07-00936
Работа выполнена в рамках проекта “Средства интеллектуального анализа больших массивов текстов” по Программе ЦК НТИ “Центр хранения и анализа больших данных”, поддерживаемого Министерством науки и высшего образования Российской Федерации по договору МГУ им. М.В. Ломоносова с Фондом поддержки проектов НТИ от 15.08.2019 № 7/1251/2019. Работа также частично поддержана РФФИ, проект 20-07-00936.

Поступила в редакцию: 20.07.2020
Исправленный вариант: 06.08.2020
Принята в печать: 17.08.2020

Англоязычная версия:
Proceedings of the Steklov Institute of Mathematics (Supplementary issues), 2021, Volume 315, Issue 1, Pages S128–S139
DOI: https://doi.org/10.1134/S0081543821060110

Реферативные базы данных:

Тип публикации: Статья

УДК: 519.853.4

MSC: 90C30, 68T50

Образец цитирования: И. А. Ирхин, К. В. Воронцов, “Сходимость алгоритма аддитивной регуляризации тематических моделей”, Тр. ИММ УрО РАН, 26, № 3, 2020, 56–68; Proc. Steklov Inst. Math. (Suppl.), 315, suppl. 1 (2021), S128–S139

Цитирование в формате AMSBIB

\RBibitem{IrkVor20}

\by И.~А.~Ирхин, К.~В.~Воронцов

\paper Сходимость алгоритма аддитивной регуляризации тематических моделей

\serial Тр. ИММ УрО РАН

\yr 2020

\vol 26

\issue 3

\pages 56--68

\mathnet{http://mi.mathnet.ru/timm1745}

\crossref{https://doi.org/10.21538/0134-4889-2020-26-3-56-68}

\elib{https://elibrary.ru/item.asp?id=43893863}

\transl

\jour Proc. Steklov Inst. Math. (Suppl.)

\yr 2021

\vol 315

\issue , suppl. 1

\pages S128--S139

\crossref{https://doi.org/10.1134/S0081543821060110}

\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000592231900006}

\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85095712293}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/timm1745

https://www.mathnet.ru/rus/timm/v26/i3/p56

Эта публикация цитируется в следующих 2 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды Института математики и механики УрО РАН

Статистика просмотров:
Страница аннотации:	276
PDF полного текста:	97
Список литературы:	36
Первая страница:	8

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы