|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Методы обнаружения переводных заимствований в больших текстовых коллекциях
Р. В. Кузнецоваa, О. Ю. Бахтеевba, Ю. В. Чеховичc a Московский физико-технический институт
b Компания Антиплагиат
c Вычислительный центр им. А. А. Дородницына Федерального исследовательского центра «Информатика и управление» Российской академии наук
Аннотация:
Рассматривается задача обнаружения переводных заимствований. Для решения предлагается использовать моноязыковой подход — свести задачу обнаружения заимствований к одному языку, используя машинный перевод. В связи со спецификой рассматриваемой задачи предлагаемый алгоритм обнаружения должен быть устойчив к неоднозначностям перевода. Предлагается декомпозировать задачу на несколько этапов. Сначала отбираются документы-кандидаты, устойчивость к неоднозначности перевода достигается за счет замены слов на метки кластеров, полученных с помощью дистрибутивной модели. Затем происходит сравнение найденных кандидатов и рассматриваемого документа, для этого используется отображение текстовых фрагментов документов в векторное пространство высокой размерности. Вычислительный эксперимент проводится для языковой пары «русский–английский» на двух выборках — синтетическом корпусе и на статьях из журналов, входящих в Российский индекс научного цитирования (РИНЦ).
Ключевые слова:
автоматическая обработка текстов, машинный перевод, глубокое обучение, переводные заимствования, обнаружение переводных заимствований, дистрибутивная семантика.
Поступила в редакцию: 19.03.2020
Образец цитирования:
Р. В. Кузнецова, О. Ю. Бахтеев, Ю. В. Чехович, “Методы обнаружения переводных заимствований в больших текстовых коллекциях”, Информ. и её примен., 15:1 (2021), 30–41
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia709 https://www.mathnet.ru/rus/ia/v15/i1/p30
|
Статистика просмотров: |
Страница аннотации: | 192 | PDF полного текста: | 111 | Список литературы: | 34 |
|