Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2023, том 15, выпуск 1, страницы 45–56
DOI: https://doi.org/10.20537/2076-7633-2023-15-1-45-56
(Mi crm1044)
 

ЧИСЛЕННЫЕ МЕТОДЫ И ОСНОВЫ ИХ РЕАЛИЗАЦИИ

Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры

А. А. Куталевa, А. А. Лапинаb

a ПАО «Сбербанк», Россия, 121170, г. Москва, Кутузовский пр-т, д. 32
b MY.GAMES, Россия, 125167, г. Москва, Ленинградский пр-т, 39, стр. 79
Список литературы:
Аннотация: В данной работе представлены результаты экспериментальной проверки некоторых вопросов, касающихся практического использования методов преодоления катастрофической забывчивости нейронных сетей. Проведено сравнение двух таких современных методов: метода эластичного закрепления весов (EWC, Elastic Weight Consolidation) и метода ослабления скоростей весов (WVA, Weight Velocity Attenuation). Разобраны их преимущества и недостатки в сравнении друг с другом. Показано, что метод эластичного закрепления весов (EWC) лучше применять в задачах, где требуется полностью сохранять выученные навыки на всех задачах в очереди обучения, а метод ослабления скоростей весов (WVA) больше подходит для задач последовательного обучения с сильно ограниченными вычислительными ресурсами или же когда требуется не точное сохранение всех навыков, а переиспользование репрезентаций и ускорение обучения от задачи к задаче. Проверено и подтверждено интуитивное предположение, что ослабление метода WVA необходимо применять к оптимизационному шагу, то есть к приращениям весов нейронной сети, а не к самому градиенту функции потерь, и это справедливо для любого градиентного оптимизационного метода, кроме простейшего стохастического градиентного спуска (SGD), для которого оптимизационный шаг и градиент функции потерь пропорциональны. Рассмотрен выбор оптимальной функции ослабления скоростей весов между гиперболической функцией и экспонентой. Показано, что гиперболическое убывание более предпочтительно, так как, несмотря на сравнимое качество при оптимальных значениях гиперпараметра метода WVA, оно более устойчиво к отклонениям гиперпараметра от оптимального значения (данный гиперпараметр в методе WVA обеспечивает баланс между сохранением старых навыков и обучением новой задаче). Приведены эмпирические наблюдения, которые подтверждают гипотезу о том, что оптимальное значение гиперпараметра не зависит от числа задач в очереди последовательного обучения. Следовательно, данный гиперпараметр может подбираться на небольшом числе задач, а использоваться — на более длинных последовательностях.
Ключевые слова: катастрофическая забывчивость, эластичное закрепление весов, EWC, ослабление скоростей весов, WVA, нейронные сети, последовательное обучение, машинное обучение, искусственный интеллект.
Поступила в редакцию: 12.10.2022
Исправленный вариант: 14.12.2022
Принята в печать: 24.12.2022
Тип публикации: Статья
УДК: 004.853
Образец цитирования: А. А. Куталев, А. А. Лапина, “Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры”, Компьютерные исследования и моделирование, 15:1 (2023), 45–56
Цитирование в формате AMSBIB
\RBibitem{KutLap23}
\by А.~А.~Куталев, А.~А.~Лапина
\paper Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры
\jour Компьютерные исследования и моделирование
\yr 2023
\vol 15
\issue 1
\pages 45--56
\mathnet{http://mi.mathnet.ru/crm1044}
\crossref{https://doi.org/10.20537/2076-7633-2023-15-1-45-56}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm1044
  • https://www.mathnet.ru/rus/crm/v15/i1/p45
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024