Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления, 2018, том 14, выпуск 4, страницы 334–345
DOI: https://doi.org/10.21638/11701/spbu10.2018.406
(Mi vspui381)
 

Информатика

Setting lower bounds on Jensen–Shannon divergence and its application to nearest neighbor document search
[Вычисление нижней границы дивергенции Дженсена–Шеннона и еe применение к задаче поиска ближайшего соседа]

V. Yu. Dobrynina, N. Rooneyb, J. A. Serdyukc

a St. Petersburg State University, 7–9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation
b Sophia Ltd, Northern Ireland Science Park, the Innovation Centre, Queen’s Road, Queen’s Island, Belfast, BT3 9DT, Northern Ireland
c Lomonosov Moscow State University, GSP-1, Leninskie Gory, Moscow, 119991, Russian Federation
Список литературы:
Аннотация: Дивергенция Дженсена–Шеннона используется для определения ближайших соседей в коллекции документов для конкретного документа запроса. Это эффективный механизм, однако исчерпывающий поиск может оказаться трудоемким процессом. В этой статье покажем, определив нижнюю оценку дивергенции Дженсена–Шeннона, что возможно сократить объем вычислений на 60% для исчерпывающего поиска и на 98% для приближенного поиска на основе выполнения поиска ближайшего соседа в одной реальной коллекции документов. В этих экспериментах был применен корпус документов, который содержит 1 854 654 статьи, опубликованные в New York Times с 01.01.1987 по 19.06.2007 (The New York Times Annotated Corpus). В качестве запросов были выбраны 100 случайных документов из данного корпуса документов. Оценивается влияние на производительность на основе сокращения количества вызовов логарифмической функции. Приближенный поиск ближайшего соседа основан на кластеризации документов с помощью алгоритма контекстной кластеризации. Выполняется приближенный поиск ближайшего соседа путем нахождения некоторого набора аттракторов кластеров, которые наиболее близки запросу, и далее ограничивается поиск документов в кластерах, соответствующих выбранным аттракторам.
Ключевые слова: дивергенция Дженсена–Шеннона, поиск ближайшего соседа, снижение размерности.
Поступила: 5 июня 2018 г.
Принята к печати: 25 сентября 2018 г.
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.2
MSC: 60E05
Язык публикации: английский
Образец цитирования: V. Yu. Dobrynin, N. Rooney, J. A. Serdyuk, “Setting lower bounds on Jensen–Shannon divergence and its application to nearest neighbor document search”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 14:4 (2018), 334–345
Цитирование в формате AMSBIB
\RBibitem{DobRooSer18}
\by V.~Yu.~Dobrynin, N.~Rooney, J.~A.~Serdyuk
\paper Setting lower bounds on Jensen--Shannon divergence and its application to nearest neighbor document search
\jour Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.
\yr 2018
\vol 14
\issue 4
\pages 334--345
\mathnet{http://mi.mathnet.ru/vspui381}
\crossref{https://doi.org/10.21638/11701/spbu10.2018.406}
\elib{https://elibrary.ru/item.asp?id=36687361}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/vspui381
  • https://www.mathnet.ru/rus/vspui/v14/i4/p334
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления
    Статистика просмотров:
    Страница аннотации:135
    PDF полного текста:32
    Список литературы:17
    Первая страница:2
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024