Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2019, том 31, выпуск 5, страницы 127–136
DOI: https://doi.org/10.15514/ISPRAS-2019-31(5)-9
(Mi tisp458)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Cross-lingual similar document retrieval methods
[Методы кросс-языкового поиска похожих документов]

D. V. Zubarev, I. V. Sochenkov

Federal Research Center «Computer Science and Control» of Russian Academy of Sciences
Список литературы:
Аннотация: В этой статье сравниваются различные методы кросс-языкового поиска похожих документов. Для сравнения используется русско-английская языковая пара. Сравниваются известные методы, такие как CL-ESA, с методами, основанными на кросс-языковых эмбеддингах. Для поиска документов используется приближенный поиск ближайшего соседа (ANN), использующий расстояния между векторами, представляющими документы. Также применяется более традиционный подход с использованием инвертированного индекса, с дополнительным шагом: отображение ключевых слов с одного языка на другой с помощью кросс-языковых эмбеддингов. Для экспериментальной оценки всех методов используются русские статьи из Википедии, которые имеют аналоги в англоязычной версии. Проведенные эксперименты показывают, что подход с инвертированным индексом показывает лучшие результаты по двум метрикам: полнота и средняя точность (MAP).
Ключевые слова: кросс-языковой поиск похожих документов, кросс-языковой поиск заимствований, кросс-языковые эмбеддинги.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 18-37-20017
Фонд поддержки проектов Национальной технологической инициативы 13/1251/2018
Работа выполнена при поддержке гранта РФФИ № 18-37-20017. Исследование выполнено также при частичной финансовой поддержке проекта "Средства интеллектуального анализа больших массивов текстов" в рамках программы Центров компетенций Национальной технологической инициативы на базе Московского государственного университета им. М.В. Ломоносова (соглашение о финансовой поддержке проектов НТИ № 13/1251/2018 от 11.12.2018)
Тип публикации: Статья
Язык публикации: английский
Образец цитирования: D. V. Zubarev, I. V. Sochenkov, “Cross-lingual similar document retrieval methods”, Труды ИСП РАН, 31:5 (2019), 127–136
Цитирование в формате AMSBIB
\RBibitem{ZubSoc19}
\by D.~V.~Zubarev, I.~V.~Sochenkov
\paper Cross-lingual similar document retrieval methods
\jour Труды ИСП РАН
\yr 2019
\vol 31
\issue 5
\pages 127--136
\mathnet{http://mi.mathnet.ru/tisp458}
\crossref{https://doi.org/10.15514/ISPRAS-2019-31(5)-9}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp458
  • https://www.mathnet.ru/rus/tisp/v31/i5/p127
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:187
    PDF полного текста:63
    Список литературы:17
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024