|
ЧИСЛЕННЫЕ МЕТОДЫ И ОСНОВЫ ИХ РЕАЛИЗАЦИИ
Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры
А. А. Куталевa, А. А. Лапинаb a ПАО «Сбербанк»,
Россия, 121170, г. Москва, Кутузовский пр-т, д. 32
b MY.GAMES,
Россия, 125167, г. Москва, Ленинградский пр-т, 39, стр. 79
Аннотация:
В данной работе представлены результаты экспериментальной проверки некоторых вопросов, касающихся практического использования методов преодоления катастрофической забывчивости нейронных сетей. Проведено сравнение двух таких современных методов: метода эластичного закрепления весов (EWC, Elastic Weight Consolidation)
и метода ослабления скоростей весов (WVA, Weight Velocity Attenuation). Разобраны их преимущества и недостатки
в сравнении друг с другом. Показано, что метод эластичного закрепления весов (EWC) лучше применять в задачах, где требуется полностью сохранять выученные навыки на всех задачах в очереди обучения, а метод ослабления
скоростей весов (WVA) больше подходит для задач последовательного обучения с сильно ограниченными вычислительными ресурсами или же когда требуется не точное сохранение всех навыков, а переиспользование репрезентаций
и ускорение обучения от задачи к задаче. Проверено и подтверждено интуитивное предположение, что ослабление
метода WVA необходимо применять к оптимизационному шагу, то есть к приращениям весов нейронной сети, а не
к самому градиенту функции потерь, и это справедливо для любого градиентного оптимизационного метода, кроме
простейшего стохастического градиентного спуска (SGD), для которого оптимизационный шаг и градиент функции
потерь пропорциональны. Рассмотрен выбор оптимальной функции ослабления скоростей весов между гиперболической функцией и экспонентой. Показано, что гиперболическое убывание более предпочтительно, так как, несмотря на
сравнимое качество при оптимальных значениях гиперпараметра метода WVA, оно более устойчиво к отклонениям
гиперпараметра от оптимального значения (данный гиперпараметр в методе WVA обеспечивает баланс между сохранением старых навыков и обучением новой задаче). Приведены эмпирические наблюдения, которые подтверждают
гипотезу о том, что оптимальное значение гиперпараметра не зависит от числа задач в очереди последовательного
обучения. Следовательно, данный гиперпараметр может подбираться на небольшом числе задач, а использоваться —
на более длинных последовательностях.
Ключевые слова:
катастрофическая забывчивость, эластичное закрепление весов, EWC,
ослабление скоростей весов, WVA, нейронные сети, последовательное обучение, машинное обучение, искусственный интеллект.
Поступила в редакцию: 12.10.2022 Исправленный вариант: 14.12.2022 Принята в печать: 24.12.2022
Образец цитирования:
А. А. Куталев, А. А. Лапина, “Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры”, Компьютерные исследования и моделирование, 15:1 (2023), 45–56
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm1044 https://www.mathnet.ru/rus/crm/v15/i1/p45
|
|