С. А. Краснов, А. С. Илатовский, А. Д. Хомоненко, В. Н. Арсеньев, “Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений”, Тр. СПИИРАН, 54 (2017), 185

Труды СПИИРАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды СПИИРАН, 2017, выпуск 54, страницы 185–204
DOI: https://doi.org/10.15622/sp.54.8 (Mi trspy971)

Алгоритмы и программные средства

Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений

С. А. Краснов^a, А. С. Илатовский^a, А. Д. Хомоненко^b, В. Н. Арсеньев^a

^a Военно-космическая академия имени А.Ф. Можайского (ВКА им. А.Ф. Можайского)
^b ФГБОУ ВО Петербургский государственный университет путей сообщения Императора Александра I

PDF полного текста (1059 kB)

DOI: https://doi.org/10.15622/sp.54.8

Аннотация: Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных.
Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия $\lambda$ сравниваемых документов.
Приведены сравнительные оценки расчета степени соответствия $\lambda$ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf–частота термина–обратная документная частота).
Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.

Ключевые слова: оценка семантической близости документов; выявление дублирования и противоречий; базы данных; латентно-семантический анализ; статистический анализ; косинусная мера близости; векторная модель.

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.912

Образец цитирования: С. А. Краснов, А. С. Илатовский, А. Д. Хомоненко, В. Н. Арсеньев, “Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений”, Тр. СПИИРАН, 54 (2017), 185–204

Цитирование в формате AMSBIB

\RBibitem{KraIlaKho17}

\by С.~А.~Краснов, А.~С.~Илатовский, А.~Д.~Хомоненко, В.~Н.~Арсеньев

\paper Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений

\jour Тр. СПИИРАН

\yr 2017

\vol 54

\pages 185--204

\mathnet{http://mi.mathnet.ru/trspy971}

\crossref{https://doi.org/10.15622/sp.54.8}

\elib{https://elibrary.ru/item.asp?id=30282025}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy971

https://www.mathnet.ru/rus/trspy/v54/p185

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы