|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
О комбинированном алгоритме обнаружения заимствований в текстовых документах
К. Ф. Сафинa, Ю. В. Чеховичbc a Московский физико-технический институт
b Федеральный исследовательский центр «Информатика и управление» РАН
c Компания Антиплагиат
Аннотация:
Поиск заимствований в текстовом документе по отношению к обширной коллекции потенциальных источников является вычислительно тяжелой задачей. При этом существуют так называемые внутренние методы поиска заимствований, которые не используют внешний корпус, а анализируют исключительно проверяемый документ. Эти методы не отличаются точностью, но обеспечивают довольно высокую производительность. В работе предложен комбинированный подход к обнаружению текстовых заимствований, основанный на использовании внутренних методов для выявления высокооригинальных документов, проверка которых по внешней коллекции не требуется. Предлагаемый алгоритм призван разгрузить систему поиска заимствований по внешней коллекции, отфильтровывая документы с высокой степенью оригинальности. В работе предлагается алгоритм поиска внутренних заимствований, описываются результаты вычислительных экспериментов.
Ключевые слова:
обработка естественного языка, обнаружение заимствований, внутренние заимствования, поиск выбросов в статистике, антиплагиат.
Образец цитирования:
К. Ф. Сафин, Ю. В. Чехович, “О комбинированном алгоритме обнаружения заимствований в текстовых документах”, Труды ИСП РАН, 34:1 (2022), 151–160
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp671 https://www.mathnet.ru/rus/tisp/v34/i1/p151
|
Статистика просмотров: |
Страница аннотации: | 23 | PDF полного текста: | 10 |
|