|
Эта публикация цитируется в 14 научных статьях (всего в 14 статьях)
МАТЕМАТИЧЕСКИЕ ОСНОВЫ И ЧИСЛЕННЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ
Регуляризация, робастность и разреженность вероятностных тематических моделей
К. В. Воронцовa, А. А. Потапенкоb a Лаборатория «РУКОНТ-ФизТех» ФУПМ МФТИ, Россия, 141700, г. Долгопрудный, Институтский переулок, д. 9
b ВМК МГУ, Россия, 119991 ГСП-1 г. Москва, Ленинские горы, МГУ имени М. В. Ломоносова, факультет ВМК
Аннотация:
Предлагается обобщенное семейство вероятностных тематических моделей коллекций текстовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от друга в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на тематические, шумовые и фоновые, не нуждается в регуляризации и обеспечивает разреженность искомых дискретных распределений тем в документах и терминов в темах.
Ключевые слова:
компьютерный анализ текстов, тематическое моделирование, вероятностный латентный семантический анализ, EM-алгоритм, латентное размещение Дирихле, сэмплирование Гиббса, байесовская регуляризация, перплексия, робастность.
Поступила в редакцию: 06.09.2012
Образец цитирования:
К. В. Воронцов, А. А. Потапенко, “Регуляризация, робастность и разреженность вероятностных тематических моделей”, Компьютерные исследования и моделирование, 4:4 (2012), 693–706
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm522 https://www.mathnet.ru/rus/crm/v4/i4/p693
|
Статистика просмотров: |
Страница аннотации: | 289 | PDF полного текста: | 124 | Список литературы: | 33 |
|