|
Информатика
Setting lower bounds on Jensen–Shannon divergence and its application to nearest neighbor document search
[Вычисление нижней границы дивергенции Дженсена–Шеннона и еe применение к задаче поиска ближайшего соседа]
V. Yu. Dobrynina, N. Rooneyb, J. A. Serdyukc a St. Petersburg State University, 7–9, Universitetskaya nab., St. Petersburg,
199034, Russian Federation
b Sophia Ltd, Northern Ireland Science Park, the Innovation Centre,
Queen’s Road, Queen’s Island, Belfast, BT3 9DT, Northern Ireland
c Lomonosov Moscow State University, GSP-1, Leninskie Gory, Moscow,
119991, Russian Federation
Аннотация:
Дивергенция Дженсена–Шеннона используется для определения ближайших соседей в коллекции документов для конкретного документа запроса. Это эффективный механизм, однако исчерпывающий поиск может оказаться трудоемким процессом. В этой статье покажем, определив нижнюю оценку дивергенции Дженсена–Шeннона, что возможно сократить объем вычислений на 60% для исчерпывающего поиска и на 98% для приближенного поиска на основе выполнения поиска ближайшего соседа в одной реальной коллекции документов. В этих экспериментах был применен корпус документов, который содержит 1 854 654 статьи, опубликованные в New York Times с 01.01.1987 по 19.06.2007 (The New York Times Annotated Corpus). В качестве запросов были выбраны 100 случайных документов из данного корпуса документов. Оценивается влияние на производительность на основе сокращения количества вызовов логарифмической функции. Приближенный поиск ближайшего соседа основан на кластеризации документов с помощью алгоритма контекстной кластеризации. Выполняется приближенный поиск ближайшего соседа путем нахождения некоторого набора аттракторов кластеров, которые наиболее близки запросу, и далее ограничивается поиск документов в кластерах, соответствующих выбранным аттракторам.
Ключевые слова:
дивергенция Дженсена–Шеннона, поиск ближайшего соседа, снижение размерности.
Поступила: 5 июня 2018 г. Принята к печати: 25 сентября 2018 г.
Образец цитирования:
V. Yu. Dobrynin, N. Rooney, J. A. Serdyuk, “Setting lower bounds on Jensen–Shannon divergence and its application to nearest neighbor document search”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 14:4 (2018), 334–345
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vspui381 https://www.mathnet.ru/rus/vspui/v14/i4/p334
|
|