|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
Динамика и ландшафт функции потерь для глубоких нейронных сетей при обучении с квадратичной функцией потерь
М. С. Находновa, М. С. Кодрянb, Е. М. Лобачеваb, Д. С. Ветровab a Институт искусственного интеллекта AIRI, Москва, Россия
b Национальный исследовательский университет "Высшая школа экономики", Москва, Россия
Аннотация:
Знание свойств геометрии функции потерь позволяет успешно объяснять поведение нейронных сетей, динамику их обучения, взаимосвязь получаемых решений и гиперпараметров, таких как способ регуляризации, архитектура нейронной сети или расписание темпа обучения. В данной работе изучаются динамика обучения и поверхность стандартной кросс-энтропийной и популярной в последнее время квадратичной функций потерь для масштабно инвариантных сетей с нормализацией. Для устранения симметрий был произведен переход к оптимизации на сфере, который позволил обнаружить три фазы обучения в зависимости от размера шага обучения на сфере, обладающие принципиально разными свойствами, – фазу сходимости, фазу хаотического равновесия и фазу дестабилизированного обучения. Данные фазы наблюдаются для обеих исследованных функций потерь, однако при обучении с квадратичной функцией потерь нужны бо́льшие сети и более долгое обучение для перехода в фазу сходимости.
Ключевые слова:
масштабная инвариантность, батч-нормализация, обучение нейронных сетей, оптимизация, квадратичная функция потерь.
Образец цитирования:
М. С. Находнов, М. С. Кодрян, Е. М. Лобачева, Д. С. Ветров, “Динамика и ландшафт функции потерь для глубоких нейронных сетей при обучении с квадратичной функцией потерь”, Докл. РАН. Матем., информ., проц. упр., 508 (2022), 50–69; Dokl. Math., 106:suppl. 1 (2022), S43–S62
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/danma337 https://www.mathnet.ru/rus/danma/v508/p50
|
Статистика просмотров: |
Страница аннотации: | 72 | Список литературы: | 23 |
|