Аннотация:
В последние годы обнаружились удивительные эффекты, наблюдаемые в процессе обучения глубоких нейронных сетей (DNN). Среди них:
- феномен “двойного спуска”, когда увеличение числа параметров в обучаемой модели сначала уменьшает ошибку на тестовых данных, затем увеличивает, а потом снова уменьшает при сильной перепараметризации, не приводя к переобучению;
- топологическая связность локальных минимумов, т.е. существование “непрерывных” траекторий, состоящих только из локальных минимумов функции потерь;
- “минные поля” в ландшафте функции потерь; и др.
Все эти эффекты связаны с сверхпараметризацией DNN. Более глубокое понимание свойств сверхпараметризованных моделей может помочь в разработке лучших алгоритмов обучения DNN.
В докладе мы поделимся интуицией и экспериментальными подтверждениями, объясняющими многие из упомянутых выше неожиданных эффектов.