|
Алгоритмы и программные средства
Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений
С. А. Красновa, А. С. Илатовскийa, А. Д. Хомоненкоb, В. Н. Арсеньевa a Военно-космическая академия имени А.Ф. Можайского (ВКА им. А.Ф. Можайского)
b ФГБОУ ВО Петербургский государственный университет путей сообщения Императора Александра I
Аннотация:
Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных.
Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия $\lambda$ сравниваемых документов.
Приведены сравнительные оценки расчета степени соответствия $\lambda$ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf–частота термина–обратная документная частота).
Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.
Ключевые слова:
оценка семантической близости документов; выявление дублирования и противоречий; базы данных; латентно-семантический анализ; статистический анализ; косинусная мера близости; векторная модель.
Образец цитирования:
С. А. Краснов, А. С. Илатовский, А. Д. Хомоненко, В. Н. Арсеньев, “Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений”, Тр. СПИИРАН, 54 (2017), 185–204
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy971 https://www.mathnet.ru/rus/trspy/v54/p185
|
|