|
Тематический выпуск
Градиентные методы оптимизации метапараметров в задаче дистилляции знаний
М. Горпиничa, О. Ю. Бахтеевb, В. В. Стрижовb a Московский физико-технический институт (государственный университет)
b Вычислительный центр имени А.А. Дородницына
Федерального исследовательского центра
«Информатика и управление» РАН, Москва
Аннотация:
В работе исследуется задача дистилляции моделей глубокого обучения. Дистилляция знаний — это задача оптимизации метапараметров, в которой происходит перенос информации модели более сложной структуры, называемой моделью-учителем, в модель более простой структуры, называемой моделью-учеником. В работе предлагается обобщение задачи дистилляции на случай оптимизации метапараметров градиентными методами. Метапараметрами являются параметры оптимизационной задачи дистилляции. В качестве функции потерь для такой задачи выступает сумма слагаемого классификации и кросс-энтропии между ответами модели-ученика и модели-учителя. Назначение оптимальных метапараметров в функции потерь дистилляции является вычислительно сложной задачей. Исследуются свойства оптимизационной задачи с целью предсказания траектории обновления метапараметров. Проводится анализ траектории градиентной оптимизации метапараметров и предсказывается их значение с помощью линейных функций. Предложенный подход проиллюстрирован с помощью вычислительного эксперимента на выборках CIFAR-10 и Fashion-MNIST, а также на синтетических данных.
Ключевые слова:
машинное обучение, дистилляция знаний, оптимизация метапараметров, градиентная оптимизация, назначение метапараметров.
Образец цитирования:
М. Горпинич, О. Ю. Бахтеев, В. В. Стрижов, “Градиентные методы оптимизации метапараметров в задаче дистилляции знаний”, Автомат. и телемех., 2022, № 10, 67–79; Autom. Remote Control, 83:10 (2022), 1544–1554
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/at16052 https://www.mathnet.ru/rus/at/y2022/i10/p67
|
|