Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2019, выпуск 18, том 3, страницы 742–766
DOI: https://doi.org/10.15622/sp.2019.18.3.741-765
(Mi trspy1062)
 

Эта публикация цитируется в 5 научных статьях (всего в 5 статьях)

Искусственный интеллект, инженерия данных и знаний

Идентификация автора исходного кода методами машинного обучения

А. В. Куртукова, А. С. Романов

Томский государственный университет систем управления и радиоэлектроники (ТУСУР)
Аннотация: Статья посвящена анализу проблемы определения автора исходного кода, которая представляет интерес для исследователей в области информационной безопасности, компьютерной криминалистики, оценки качества образовательного процесса, защиты интеллектуальной собственности.
Представлен подробный анализ современных решений проблемы. Предлагаются две новые методики идентификации на основе алгоритмов машинного обучения: машины опорных векторов, фильтра быстрой корреляции и информативных признаков; гибридной сверточно-рекуррентной нейронной сети.
Эксперименты проводились на базе исходных кодов, написанных на наиболее популярных языках программирования. В экспериментальную базу вошли экземпляры исходных кодов, написанных на Java, C++, Python, PHP, JavaScript, C, C# и Ruby. Данные были получены с веб-сервиса для хостинга IT-проектов Github. Общее количество исходных кодов превышает 150 тысяч образцов, средняя длина каждого из которых составляет 850 символов. Размер корпуса — 542 автора.
С помощью перекрестной проверки по 10 блокам оценена точность разработанных методик для различного количества авторов. Для наиболее популярного языка программирования Java проведен дополнительный ряд экспериментов с количеством авторов от 2 до 50 и приведены графики зависимости точности идентификации от размера корпуса.
Анализ результатов показал, что методика на основе гибридной нейронной сети способна достигать точности 97%, что является наилучшим результатом на сегодняшний день. Методика на основе машины опорных векторов позволила добиться точности 96%. Гибридная нейронная сеть оказалась точнее машины опорных векторов в среднем на 5%.
Ключевые слова: автор исходного кода, глубокое обучение, нейронная сеть, SVM, HNN.
Поступила в редакцию: 23.02.2019
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.25: 004.8
Образец цитирования: А. В. Куртукова, А. С. Романов, “Идентификация автора исходного кода методами машинного обучения”, Тр. СПИИРАН, 18:3 (2019), 742–766
Цитирование в формате AMSBIB
\RBibitem{KurRom19}
\by А.~В.~Куртукова, А.~С.~Романов
\paper Идентификация автора исходного кода методами машинного обучения
\jour Тр. СПИИРАН
\yr 2019
\vol 18
\issue 3
\pages 742--766
\mathnet{http://mi.mathnet.ru/trspy1062}
\crossref{https://doi.org/10.15622/sp.2019.18.3.741-765}
\elib{https://elibrary.ru/item.asp?id=38515507}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1062
  • https://www.mathnet.ru/rus/trspy/v18/i3/p742
  • Эта публикация цитируется в следующих 5 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:328
    PDF полного текста:223
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024