Автоматика и телемеханика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор
Правила для авторов
Загрузить рукопись

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Автомат. и телемех.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Автоматика и телемеханика, 2022, выпуск 10, страницы 67–79
DOI: https://doi.org/10.31857/S0005231022100075
(Mi at16052)
 

Тематический выпуск

Градиентные методы оптимизации метапараметров в задаче дистилляции знаний

М. Горпиничa, О. Ю. Бахтеевb, В. В. Стрижовb

a Московский физико-технический институт (государственный университет)
b Вычислительный центр имени А.А. Дородницына Федерального исследовательского центра «Информатика и управление» РАН, Москва
Список литературы:
Аннотация: В работе исследуется задача дистилляции моделей глубокого обучения. Дистилляция знаний — это задача оптимизации метапараметров, в которой происходит перенос информации модели более сложной структуры, называемой моделью-учителем, в модель более простой структуры, называемой моделью-учеником. В работе предлагается обобщение задачи дистилляции на случай оптимизации метапараметров градиентными методами. Метапараметрами являются параметры оптимизационной задачи дистилляции. В качестве функции потерь для такой задачи выступает сумма слагаемого классификации и кросс-энтропии между ответами модели-ученика и модели-учителя. Назначение оптимальных метапараметров в функции потерь дистилляции является вычислительно сложной задачей. Исследуются свойства оптимизационной задачи с целью предсказания траектории обновления метапараметров. Проводится анализ траектории градиентной оптимизации метапараметров и предсказывается их значение с помощью линейных функций. Предложенный подход проиллюстрирован с помощью вычислительного эксперимента на выборках CIFAR-10 и Fashion-MNIST, а также на синтетических данных.
Ключевые слова: машинное обучение, дистилляция знаний, оптимизация метапараметров, градиентная оптимизация, назначение метапараметров.
Финансовая поддержка
Работа выполнена при поддержке Научной академической стипендии имени К.В. Рудакова.
Статья представлена к публикации членом редколлегии: А. А. Лазарев

Поступила в редакцию: 17.02.2022
После доработки: 23.06.2022
Принята к публикации: 29.06.2022
Англоязычная версия:
Automation and Remote Control, 2022, Volume 83, Issue 10, Pages 1544–1554
DOI: https://doi.org/10.1134/S00051179220100071
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: М. Горпинич, О. Ю. Бахтеев, В. В. Стрижов, “Градиентные методы оптимизации метапараметров в задаче дистилляции знаний”, Автомат. и телемех., 2022, № 10, 67–79; Autom. Remote Control, 83:10 (2022), 1544–1554
Цитирование в формате AMSBIB
\RBibitem{GorBakStr22}
\by М.~Горпинич, О.~Ю.~Бахтеев, В.~В.~Стрижов
\paper Градиентные методы оптимизации метапараметров в задаче дистилляции знаний
\jour Автомат. и телемех.
\yr 2022
\issue 10
\pages 67--79
\mathnet{http://mi.mathnet.ru/at16052}
\crossref{https://doi.org/10.31857/S0005231022100075}
\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=4529662}
\edn{https://elibrary.ru/AKGKQX}
\transl
\jour Autom. Remote Control
\yr 2022
\vol 83
\issue 10
\pages 1544--1554
\crossref{https://doi.org/10.1134/S00051179220100071}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/at16052
  • https://www.mathnet.ru/rus/at/y2022/i10/p67
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Автоматика и телемеханика
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024