|
Эта публикация цитируется в 5 научных статьях (всего в 5 статьях)
Искусственный интеллект, инженерия данных и знаний
Идентификация автора исходного кода методами машинного обучения
А. В. Куртукова, А. С. Романов Томский государственный университет систем управления и радиоэлектроники (ТУСУР)
Аннотация:
Статья посвящена анализу проблемы определения автора исходного кода, которая представляет интерес для исследователей в области информационной безопасности, компьютерной криминалистики, оценки качества образовательного процесса, защиты интеллектуальной собственности.
Представлен подробный анализ современных решений проблемы. Предлагаются две новые методики идентификации на основе алгоритмов машинного обучения: машины опорных векторов, фильтра быстрой корреляции и информативных признаков; гибридной сверточно-рекуррентной нейронной сети.
Эксперименты проводились на базе исходных кодов, написанных на наиболее популярных языках программирования. В экспериментальную базу вошли экземпляры исходных кодов, написанных на Java, C++, Python, PHP, JavaScript, C, C# и Ruby. Данные были получены с веб-сервиса для хостинга IT-проектов Github. Общее количество исходных кодов превышает 150 тысяч образцов, средняя длина каждого из которых составляет 850 символов. Размер корпуса — 542 автора.
С помощью перекрестной проверки по 10 блокам оценена точность разработанных методик для различного количества авторов. Для наиболее популярного языка программирования Java проведен дополнительный ряд экспериментов с количеством авторов от 2 до 50 и приведены графики зависимости точности идентификации от размера корпуса.
Анализ результатов показал, что методика на основе гибридной нейронной сети способна достигать точности 97%, что является наилучшим результатом на сегодняшний день. Методика на основе машины опорных векторов позволила добиться точности 96%. Гибридная нейронная сеть оказалась точнее машины опорных векторов в среднем на 5%.
Ключевые слова:
автор исходного кода, глубокое обучение, нейронная сеть, SVM, HNN.
Поступила в редакцию: 23.02.2019
Образец цитирования:
А. В. Куртукова, А. С. Романов, “Идентификация автора исходного кода методами машинного обучения”, Тр. СПИИРАН, 18:3 (2019), 742–766
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1062 https://www.mathnet.ru/rus/trspy/v18/i3/p742
|
Статистика просмотров: |
Страница аннотации: | 328 | PDF полного текста: | 223 |
|