Аннотация:
Предлагается обобщенное семейство вероятностных тематических моделей коллекций текстовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от друга в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на тематические, шумовые и фоновые, не нуждается в регуляризации и обеспечивает разреженность искомых дискретных распределений тем в документах и терминов в темах.
Работа выполнена при поддержке Министерства образования и науки РФ (Государственный контракт 07.524.11.4002) и Российского фонда фундаментальных исследований (проект No 11-07-00480).
Поступила в редакцию: 06.09.2012
Тип публикации:
Статья
УДК:
004.852
Образец цитирования:
К. В. Воронцов, А. А. Потапенко, “Регуляризация, робастность и разреженность вероятностных тематических моделей”, Компьютерные исследования и моделирование, 4:4 (2012), 693–706
\RBibitem{VorPot12}
\by К.~В.~Воронцов, А.~А.~Потапенко
\paper Регуляризация, робастность и разреженность вероятностных тематических моделей
\jour Компьютерные исследования и моделирование
\yr 2012
\vol 4
\issue 4
\pages 693--706
\mathnet{http://mi.mathnet.ru/crm522}
\crossref{https://doi.org/10.20537/2076-7633-2012-4-4-693-706}
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm522
https://www.mathnet.ru/rus/crm/v4/i4/p693
Эта публикация цитируется в следующих 14 статьяx:
Ravil I. Mukhamediev, Marina Yelis, Kirill Yakunin, Yelena Popova, Yan Kuchin, Adilkhan Symagulov, Nadiya Yunicheva, Elena Zaitseva, Vitaly Levashenko, Elena Muhamedijeva, Viktors Gopejenko, Rustam Mussabayev, “Exploring the health care system's representation in the media through hierarchical topic modeling”, Cogent Engineering, 11:1 (2024)
Antonina Pinchuk, Svetlana Karepova, Dmitry Tikhomirov, “Text Mining technologies in sociological analysis (using the example of studying students`ideas about the mission of a modern university)”, Sociologicheskaja nauka i social'naja praktika, 12:1 (2024), 62
M. M. Gayanova, E. Yu. Sazonova, O. N. Smetanina, A. K. Sulejmanov, “Selection of Tools for Preprocessing and Thematic Modeling of Scientific Articles from the Data Lake”, Pattern Recognit. Image Anal., 33:3 (2023), 313
Sergei Dosko, Vladimir Utencov, Aleksey Spasenov, Igor Lukashin, Kirill Kucherov, Lecture Notes on Data Engineering and Communications Technologies, 119, Advances in Artificial Systems for Power Engineering II, 2022, 170
Wei Jiek Chong, Hui Na Chua, May Fen Gan, 2022 IEEE International Conference on Artificial Intelligence in Engineering and Technology (IICAIET), 2022, 1
Kirill Yakunin, Maksat Kalimoldayev, Ravil I. Mukhamediev, Rustam Mussabayev, Vladimir Barakhnin, Yan Kuchin, Sanzhar Murzakhmetov, Timur Buldybayev, Ulzhan Ospanova, Marina Yelis, Akylbek Zhumabayev, Viktors Gopejenko, Zhazirakhanym Meirambekkyzy, Alibek Abdurazakov, “KazNewsDataset: Single Country Overall Digital Mass Media Publication Corpus”, Data, 6:3 (2021), 31
Kirill Yakunin, Ravil Mukhamediev, Yan Kuchin, Rustam Musabayev, Timur Buldybayev, Sanzhar Murzakhmetov, “Classification of negative publication in mass media using topic modeling”, J. Phys.: Conf. Ser., 1727:1 (2021), 012019
Kirill Yakunin, Ravil I. Mukhamediev, Elena Zaitseva, Vitaly Levashenko, Marina Yelis, Adilkhan Symagulov, Yan Kuchin, Elena Muhamedijeva, Margulan Aubakirov, Viktors Gopejenko, “Mass Media as a Mirror of the COVID-19 Pandemic”, Computation, 9:12 (2021), 140
Kirill Yakunin, Ravil I. Mukhamediev, Marina Yelis, Adilkhan Symagulov, Yan Kuchin, Elena Muhamedijeva, Jan Rabcan, Aubakirov Margulan, 2021 International Conference on Information and Digital Technologies (IDT), 2021, 260
Ravil I. Mukhamediev, Kirill Yakunin, Rustam Mussabayev, Timur Buldybayev, Yan Kuchin, Sanzhar Murzakhmetov, Marina Yelis, “Classification of Negative Information on Socially Significant Topics in Mass Media”, Symmetry, 12:12 (2020), 1945
V B Barakhnin, R I Mukhamedyev, R R Mussabaev, O Yu Kozhemyakina, A Issayeva, Ya I Kuchin, S B Murzakhmetov, K O Yakunin, “Methods to identify the destructive information”, J. Phys.: Conf. Ser., 1405:1 (2019), 012004
Е. В. Тутубалина, “Совместная вероятностная тематическая модель для идентификации проблемных высказываний, связанных нарушением функциональности продуктов”, Труды ИСП РАН, 27:4 (2015), 111–128
Maria Saburova, Archil Maysuradze, Communications in Computer and Information Science, 518, Knowledge Engineering and Semantic Web, 2015, 168