Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2020, том 12, выпуск 6, страницы 1515–1528
DOI: https://doi.org/10.20537/2076-7633-2020-12-6-1515-1528
(Mi crm863)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Аддитивная регуляризация тематических моделей с быстрой векторизацией текста

И. А. Ирхин, В. Г. Булатов, К. В. Воронцов

Московский физико-технический институт, 141701, Московская область, г. Долгопрудный, Институтский переулок, д. 9
Список литературы:
Аннотация: Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытым кодом BigARTM и TopicNet.
Ключевые слова: автоматическая обработка текстов, обучение без учителя, тематическое моделирование, аддитивная регуляризация тематических моделей, EM-алгоритм, PLSA, LDA, ARTM, BigARTM, TopicNet.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 20-07-00936
Министерство науки и высшего образования Российской Федерации № 7/1251/2019
Работа выполнена в рамках проекта «Средства интеллектуального анализа больших массивов текстов», по Программе ЦК НТИ «Центр хранения и анализа больших данных», поддерживаемого Министерством науки и высшего образования Российской Федерации по договору от 15.08.2019 № 7/1251/2019. Работа также частично поддержана РФФИ, проект 20-07-00936.
Поступила в редакцию: 21.09.2020
Исправленный вариант: 01.10.2020
Принята в печать: 05.10.2020
Тип публикации: Статья
УДК: 004.852, 519.853
Образец цитирования: И. А. Ирхин, В. Г. Булатов, К. В. Воронцов, “Аддитивная регуляризация тематических моделей с быстрой векторизацией текста”, Компьютерные исследования и моделирование, 12:6 (2020), 1515–1528
Цитирование в формате AMSBIB
\RBibitem{IrkBulVor20}
\by И.~А.~Ирхин, В.~Г.~Булатов, К.~В.~Воронцов
\paper Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
\jour Компьютерные исследования и моделирование
\yr 2020
\vol 12
\issue 6
\pages 1515--1528
\mathnet{http://mi.mathnet.ru/crm863}
\crossref{https://doi.org/10.20537/2076-7633-2020-12-6-1515-1528}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm863
  • https://www.mathnet.ru/rus/crm/v12/i6/p1515
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
    Статистика просмотров:
    Страница аннотации:260
    PDF полного текста:95
    Список литературы:19
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024