|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Иерархическая рубрикация текстовых документов
Д. И. Сорокин, А. С. Нужный, Е. А. Савельева Институт безопасного развития атомной энергетики РАН
Аннотация:
В работе представлены алгоритм и компьютерная программа иерархической рубрикации текстовой документации. Программа позволяет структурировать неупорядоченный корпус документов в виде иерархии рубрик и визуализировать результат в виде интерактивной карты. Для каждой рубрики автоматически определяются ключевые слова, по которым находятся документы, отнесенные к ней. Анализ построенной иерархии тем позволяет оценить минимальную и максимальную допустимую глубину иерархии, соответствующие минимальному и максимальному количеству различных тем, содержащихся в корпусе документов. Программа апробирована на коллекции документов по захоронению радиоактивных отходов. Результаты тестирования программы показывают хорошее качество построенной иерархии рубрик. Программа может быть использована для ознакомления с коллекцией документов и для тематического поиска.
Ключевые слова:
рубрикация, иерархическая кластеризация, обработка естественного языка, машинное обучение.
Образец цитирования:
Д. И. Сорокин, А. С. Нужный, Е. А. Савельева, “Иерархическая рубрикация текстовых документов”, Труды ИСП РАН, 32:6 (2020), 127–136
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp563 https://www.mathnet.ru/rus/tisp/v32/i6/p127
|
Статистика просмотров: |
Страница аннотации: | 67 | PDF полного текста: | 49 | Список литературы: | 18 |
|