|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Cross-lingual similar document retrieval methods
[Методы кросс-языкового поиска похожих документов]
D. V. Zubarev, I. V. Sochenkov Federal Research Center «Computer Science and Control» of Russian Academy of Sciences
Аннотация:
В этой статье сравниваются различные методы кросс-языкового поиска похожих документов. Для сравнения используется русско-английская языковая пара. Сравниваются известные методы, такие как CL-ESA, с методами, основанными на кросс-языковых эмбеддингах. Для поиска документов используется приближенный поиск ближайшего соседа (ANN), использующий расстояния между векторами, представляющими документы. Также применяется более традиционный подход с использованием инвертированного индекса, с дополнительным шагом: отображение ключевых слов с одного языка на другой с помощью кросс-языковых эмбеддингов. Для экспериментальной оценки всех методов используются русские статьи из Википедии, которые имеют аналоги в англоязычной версии. Проведенные эксперименты показывают, что подход с инвертированным индексом показывает лучшие результаты по двум метрикам: полнота и средняя точность (MAP).
Ключевые слова:
кросс-языковой поиск похожих документов, кросс-языковой поиск заимствований, кросс-языковые эмбеддинги.
Образец цитирования:
D. V. Zubarev, I. V. Sochenkov, “Cross-lingual similar document retrieval methods”, Труды ИСП РАН, 31:5 (2019), 127–136
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp458 https://www.mathnet.ru/rus/tisp/v31/i5/p127
|
Статистика просмотров: |
Страница аннотации: | 187 | PDF полного текста: | 63 | Список литературы: | 17 |
|