|
ОБРАБОТКА ИНФОРМАЦИИ И АНАЛИЗ ДАННЫХ
Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки
Э. А. Головастоваa, Д. Н. Красотинb a Московский государственный университет им. М.В. Ломоносова, г. Москва, Россия
b ЗАО “Московский научно-исследовательский телевизионный институт”, г. Москва, Россия
Аннотация:
Данное исследование посвящено проблеме необходимости проведения быстрой и качественной автоматизированной кластеризации больших объемов текстовых выборок в условиях постоянно разрастающегося объёма информации, в том числе получаемых из сети Интернет. В статье рассмотрены различные способы параметризации текстовой выборки и различные алгоритмы кластеризации. Качество работы методов оценивалось по скорости их выполнения, значению коэффициента Силуэт (формальному показателю качества кластеризации) и полноты финального отображения кластеров. В статье приведены результаты работы методов кластеризации, проведен их анализ и сравнение.
Ключевые слова:
Кластеризация, текстовая выборка, параметризация выборки, tf-idf-мера, ключевые слова, эффективный метод.
Образец цитирования:
Э. А. Головастова, Д. Н. Красотин, “Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки”, ИТиВС, 2019, № 4, 60–69
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/itvs363 https://www.mathnet.ru/rus/itvs/y2019/i4/p60
|
Статистика просмотров: |
Страница аннотации: | 100 | PDF полного текста: | 286 |
|