|
Повышение качества классификации в задаче обнаружения внутреннего плагиата
И. О. Молибогab, А. П. Мотренкоa, В. В. Стрижовc a Московский физико-технический институт
b Центр энергетических систем, Сколковский институт науки и технологий
c Вычислительный центр им. А. А. Дородницына Федерального исследовательского центра «Информатика и управление» Российской академии наук
Аннотация:
Исследуется задача классификации объектов в многомерных пространствах. Для снижения размерности задачи предлагается модификация алгоритма t-SNE (англ. t-distributed Stochastic Neighbor Embedding), в которой при обучении используется информация о разметке, не возникает необходимости заново обучать алгоритм при добавлении новых данных, а также предусмотрена параллельная реализация. Предлагаемый алгоритм решает задачу внутреннего плагиата, в которой признаками являются частотные словесные профили сегментов текста. Показано, что качество классификации после применения алгоритма выше, чем без него или с другими алгоритмами.
Ключевые слова:
анализ данных; снижение размерности; нелинейные методы снижения размерности; обучение многообразий; обнаружение внутреннего плагиата.
Поступила в редакцию: 20.02.2017
Образец цитирования:
И. О. Молибог, А. П. Мотренко, В. В. Стрижов, “Повышение качества классификации в задаче обнаружения внутреннего плагиата”, Информ. и её примен., 11:3 (2017), 60–72
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia486 https://www.mathnet.ru/rus/ia/v11/i3/p60
|
|