|
Определение заимствований в тексте без указания источника
К. Ф. Сафинab, М. П. Кузнецовc, М. В. Кузнецоваba a ЗАО «Анти-плагиат»
b Московский физико-технический институт
c ООО «Форексис»
Аннотация:
Для задачи поиска заимствований в тексте существуют два подхода: обнаружение «внешних» и «внутренних» заимствований. При поиске внешних заимствований известен корпус, из которого возможны заимствования. При поиске внутренних заимствований исследуемый текст анализируется изолированно, т. е. возможные источники заимствований неизвестны. Данная работа посвящена поиску внутренних заимствований в тексте. Предполагается, что большая часть текста написана одним автором. Необходимо выделить участки текста, написанные другим автором, если таковые имеются. В работе предлагается алгоритм, строящий статистику сегментов текста, по которой определяется факт зависимости. Эксперимент проводится на коллекции конкурса PAN-2011.
Ключевые слова:
обработка естественного языка; детектирование внутренних заимствований; поиск выбросов в статистике.
Поступила в редакцию: 30.01.2017
Образец цитирования:
К. Ф. Сафин, М. П. Кузнецов, М. В. Кузнецова, “Определение заимствований в тексте без указания источника”, Информ. и её примен., 11:3 (2017), 73–79
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia487 https://www.mathnet.ru/rus/ia/v11/i3/p73
|
Статистика просмотров: |
Страница аннотации: | 489 | PDF полного текста: | 339 | Список литературы: | 36 | Первая страница: | 8 |
|