Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2017, том 29, выпуск 2, страницы 161–200
DOI: https://doi.org/10.15514/ISPRAS-2017-29(2)-6
(Mi tisp214)
 

Эта публикация цитируется в 15 научных статьях (всего в 15 статьях)

Обзор и экспериментальное сравнение методов кластеризации текстов

П. А. Пархоменкоab, А. А. Григорьевbc, Н. А. Астраханцевb

a Московский государственный университет имени М.В. Ломоносова
b Институт системного программирования РАН
c Национальный исследовательский университет "Высшая школа экономики"
Список литературы:
Аннотация: Кластеризация текстовых документов применяется во многих приложениях, таких как информационный поиск, исследовательский поиск, определение спама. Этой задаче посвящено множество научных работ, однако в настоящее время остается недостаточно изученным влияние специфики научных статей, в частности принадлежности документов одной предметной области или недоступности полных текстов, на эффективность кластеризации. В данной работе предлагаются обзор и экспериментальное сравнение методов кластеризации текстовых документов в приложении к научным статьям. Исследуются методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).
Ключевые слова: кластеризация текстовых документов, мешок слов, извлечение терминологии, тематическое моделирование, векторное представление, искусственные нейронные сети.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 14-07-00692
Эта работа поддержана грантом РФФИ № 14-07-00692
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: П. А. Пархоменко, А. А. Григорьев, Н. А. Астраханцев, “Обзор и экспериментальное сравнение методов кластеризации текстов”, Труды ИСП РАН, 29:2 (2017), 161–200
Цитирование в формате AMSBIB
\RBibitem{ParGriAst17}
\by П.~А.~Пархоменко, А.~А.~Григорьев, Н.~А.~Астраханцев
\paper Обзор и экспериментальное сравнение методов кластеризации текстов
\jour Труды ИСП РАН
\yr 2017
\vol 29
\issue 2
\pages 161--200
\mathnet{http://mi.mathnet.ru/tisp214}
\crossref{https://doi.org/10.15514/ISPRAS-2017-29(2)-6}
\elib{https://elibrary.ru/item.asp?id=29118082}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp214
  • https://www.mathnet.ru/rus/tisp/v29/i2/p161
  • Эта публикация цитируется в следующих 15 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:476
    PDF полного текста:298
    Список литературы:39
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024