Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, том 508, страницы 50–69
DOI: https://doi.org/10.31857/S2686954322070189
(Mi danma337)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Динамика и ландшафт функции потерь для глубоких нейронных сетей при обучении с квадратичной функцией потерь

М. С. Находновa, М. С. Кодрянb, Е. М. Лобачеваb, Д. С. Ветровab

a Институт искусственного интеллекта AIRI, Москва, Россия
b Национальный исследовательский университет "Высшая школа экономики", Москва, Россия
Список литературы:
Аннотация: Знание свойств геометрии функции потерь позволяет успешно объяснять поведение нейронных сетей, динамику их обучения, взаимосвязь получаемых решений и гиперпараметров, таких как способ регуляризации, архитектура нейронной сети или расписание темпа обучения. В данной работе изучаются динамика обучения и поверхность стандартной кросс-энтропийной и популярной в последнее время квадратичной функций потерь для масштабно инвариантных сетей с нормализацией. Для устранения симметрий был произведен переход к оптимизации на сфере, который позволил обнаружить три фазы обучения в зависимости от размера шага обучения на сфере, обладающие принципиально разными свойствами, – фазу сходимости, фазу хаотического равновесия и фазу дестабилизированного обучения. Данные фазы наблюдаются для обеих исследованных функций потерь, однако при обучении с квадратичной функцией потерь нужны бо́льшие сети и более долгое обучение для перехода в фазу сходимости.
Ключевые слова: масштабная инвариантность, батч-нормализация, обучение нейронных сетей, оптимизация, квадратичная функция потерь.
Статья представлена к публикации: А. А. Шананин
Поступило: 28.10.2022
После доработки: 28.10.2022
Принято к публикации: 01.11.2022
Англоязычная версия:
Doklady Mathematics, 2022, Volume 106, Issue suppl. 1, Pages S43–S62
DOI: https://doi.org/10.1134/S1064562422060187
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.8
Образец цитирования: М. С. Находнов, М. С. Кодрян, Е. М. Лобачева, Д. С. Ветров, “Динамика и ландшафт функции потерь для глубоких нейронных сетей при обучении с квадратичной функцией потерь”, Докл. РАН. Матем., информ., проц. упр., 508 (2022), 50–69; Dokl. Math., 106:suppl. 1 (2022), S43–S62
Цитирование в формате AMSBIB
\RBibitem{NakKodLob22}
\by М.~С.~Находнов, М.~С.~Кодрян, Е.~М.~Лобачева, Д.~С.~Ветров
\paper Динамика и ландшафт функции потерь для глубоких нейронных сетей при обучении с квадратичной функцией потерь
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2022
\vol 508
\pages 50--69
\mathnet{http://mi.mathnet.ru/danma337}
\crossref{https://doi.org/10.31857/S2686954322070189}
\elib{https://elibrary.ru/item.asp?id=49991310}
\transl
\jour Dokl. Math.
\yr 2022
\vol 106
\issue suppl. 1
\pages S43--S62
\crossref{https://doi.org/10.1134/S1064562422060187}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma337
  • https://www.mathnet.ru/rus/danma/v508/p50
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:72
    Список литературы:23
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024