|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ
Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
И. А. Ирхин, В. Г. Булатов, К. В. Воронцов Московский физико-технический институт,
141701, Московская область, г. Долгопрудный, Институтский переулок, д. 9
Аннотация:
Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытым кодом BigARTM и TopicNet.
Ключевые слова:
автоматическая обработка текстов, обучение без учителя, тематическое моделирование, аддитивная регуляризация тематических моделей, EM-алгоритм, PLSA, LDA, ARTM, BigARTM, TopicNet.
Поступила в редакцию: 21.09.2020 Исправленный вариант: 01.10.2020 Принята в печать: 05.10.2020
Образец цитирования:
И. А. Ирхин, В. Г. Булатов, К. В. Воронцов, “Аддитивная регуляризация тематических моделей с быстрой векторизацией текста”, Компьютерные исследования и моделирование, 12:6 (2020), 1515–1528
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm863 https://www.mathnet.ru/rus/crm/v12/i6/p1515
|
Статистика просмотров: |
Страница аннотации: | 260 | PDF полного текста: | 95 | Список литературы: | 19 |
|