D. V. Zubarev, I. V. Sochenkov, “Cross-lingual similar document retrieval methods”, Труды ИСП РАН, 31:5 (2019), 127

Труды института системного программирования РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды института системного программирования РАН, 2019, том 31, выпуск 5, страницы 127–136
DOI: https://doi.org/10.15514/ISPRAS-2019-31(5)-9 (Mi tisp458)

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Cross-lingual similar document retrieval methods

[Методы кросс-языкового поиска похожих документов]

D. V. Zubarev, I. V. Sochenkov

Federal Research Center «Computer Science and Control» of Russian Academy of Sciences

PDF полного текста (352 kB) Список цитирования (3)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.15514/ISPRAS-2019-31(5)-9

Аннотация: В этой статье сравниваются различные методы кросс-языкового поиска похожих документов. Для сравнения используется русско-английская языковая пара. Сравниваются известные методы, такие как CL-ESA, с методами, основанными на кросс-языковых эмбеддингах. Для поиска документов используется приближенный поиск ближайшего соседа (ANN), использующий расстояния между векторами, представляющими документы. Также применяется более традиционный подход с использованием инвертированного индекса, с дополнительным шагом: отображение ключевых слов с одного языка на другой с помощью кросс-языковых эмбеддингов. Для экспериментальной оценки всех методов используются русские статьи из Википедии, которые имеют аналоги в англоязычной версии. Проведенные эксперименты показывают, что подход с инвертированным индексом показывает лучшие результаты по двум метрикам: полнота и средняя точность (MAP).

Ключевые слова: кросс-языковой поиск похожих документов, кросс-языковой поиск заимствований, кросс-языковые эмбеддинги.

Финансовая поддержка	Номер гранта
Российский фонд фундаментальных исследований	18-37-20017
Фонд поддержки проектов Национальной технологической инициативы	13/1251/2018
Работа выполнена при поддержке гранта РФФИ № 18-37-20017. Исследование выполнено также при частичной финансовой поддержке проекта "Средства интеллектуального анализа больших массивов текстов" в рамках программы Центров компетенций Национальной технологической инициативы на базе Московского государственного университета им. М.В. Ломоносова (соглашение о финансовой поддержке проектов НТИ № 13/1251/2018 от 11.12.2018)

Тип публикации: Статья

Язык публикации: английский

Образец цитирования: D. V. Zubarev, I. V. Sochenkov, “Cross-lingual similar document retrieval methods”, Труды ИСП РАН, 31:5 (2019), 127–136

Цитирование в формате AMSBIB

\RBibitem{ZubSoc19}

\by D.~V.~Zubarev, I.~V.~Sochenkov

\paper Cross-lingual similar document retrieval methods

\jour Труды ИСП РАН

\yr 2019

\vol 31

\issue 5

\pages 127--136

\mathnet{http://mi.mathnet.ru/tisp458}

\crossref{https://doi.org/10.15514/ISPRAS-2019-31(5)-9}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tisp458

https://www.mathnet.ru/rus/tisp/v31/i5/p127

Эта публикация цитируется в следующих 3 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды института системного программирования РАН

Статистика просмотров:
Страница аннотации:	187
PDF полного текста:	63
Список литературы:	17

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы