|
Эта публикация цитируется в 15 научных статьях (всего в 15 статьях)
Обзор и экспериментальное сравнение методов кластеризации текстов
П. А. Пархоменкоab, А. А. Григорьевbc, Н. А. Астраханцевb a Московский государственный университет имени М.В. Ломоносова
b Институт системного программирования РАН
c Национальный исследовательский университет "Высшая школа экономики"
Аннотация:
Кластеризация текстовых документов применяется во многих приложениях, таких как информационный поиск, исследовательский поиск, определение спама. Этой задаче посвящено множество научных работ, однако в настоящее время остается недостаточно изученным влияние специфики научных статей, в частности принадлежности документов одной предметной области или недоступности полных текстов, на эффективность кластеризации. В данной работе предлагаются обзор и экспериментальное сравнение методов кластеризации текстовых документов в приложении к научным статьям. Исследуются методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).
Ключевые слова:
кластеризация текстовых документов, мешок слов, извлечение терминологии, тематическое моделирование, векторное представление, искусственные нейронные сети.
Образец цитирования:
П. А. Пархоменко, А. А. Григорьев, Н. А. Астраханцев, “Обзор и экспериментальное сравнение методов кластеризации текстов”, Труды ИСП РАН, 29:2 (2017), 161–200
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp214 https://www.mathnet.ru/rus/tisp/v29/i2/p161
|
Статистика просмотров: |
Страница аннотации: | 476 | PDF полного текста: | 298 | Список литературы: | 39 |
|