|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Многокритериальный метод выявления нечетких дубликатов в потоке текстовых сообщений
А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков Московский государственный технический университет им. Н. Э. Баумана
Аннотация:
Рассмотрена задача обнаружения нечетких дубликатов в потоке текстовых сообщений. Предложена модель документа, имеющая возможность гибкой настройки на различные предметные области. Представлен многокритериальный метод выявления дублирующихся документов на основе бинарной классификации с помощью метода опорных векторов. Предложен способ обеспечения высокого быстродействия метода посредством предварительного отбора кандидатов в дубликаты. Проведена экспериментальная оценка предложенного метода, демонстрирующая его практическую применимость.
Ключевые слова:
обнаружение нечетких дубликатов; мера близости; бинарная классификация.
Поступила в редакцию: 30.12.2014
Образец цитирования:
А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков, “Многокритериальный метод выявления нечетких дубликатов в потоке текстовых сообщений”, Системы и средства информ., 25:1 (2015), 34–53
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ssi392 https://www.mathnet.ru/rus/ssi/v25/i1/p34
|
|