Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 126–137
DOI: https://doi.org/10.31857/S2686954323601562
(Mi danma458)
 

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта

М. И. Рудаковab, А. Н. Безносиковab, Я. А. Холодовab, А. В. Гасниковab

a Университет Иннополис, Иннополис, Республика Татарстан, Россия
b Московский физико-технический институт, Москва, Россия
Список литературы:
Аннотация: Современные большие нейронные сети требуют для обучения огромных вычислительных ресурсов. В такой постановке параллелизация процесса обучения, когда последовательные слои модели разбиваются между устройствами, является популярным подходом для обучения больших моделей. Для уменьшения времени обмена данными между устройствами, часто являющимся узким местом в таких системах, применяется сжатие информации. В данной работе исследуется влияние одновременного сжатия активаций и градиентов в режиме параллелизации по модели на сходимость процесса обучения. Мы анализируем такие подходы, как квантизация и “жадное” TopK сжатие, а также экспериментируем с методами компенсации ошибки. Мы исследуем TopK сжатие с использованием подхода AQ-SGD с побатчевой компенсацией ошибки сжатия. Сравнения проводятся на задачах обучения ResNet18 и дообучения GPT-2. Полученные нами результаты показывают, что градиенты более чувствительны к степени сжатия, чем активации слоев модели. По нашим наблюдениям, $K=10\%$ – это максимальный уровень сжатия TopK, который не оказывает сильного влияния на сходимость модели. Эксперименты также показывают, что модели, обученные с использованием сжатия TopK, хорошо работают только в том случае, если сжатие применяется и во время валидации. Мы обнаружили, что техники компенсации ошибки одновременно для активаций и градиентов не улучшают сходимость по сравнению с обычным сжатием. Наконец, применение подхода AQ-SGD с TopK сжатием сильнее, чем при $K=30\%$, значительно ухудшает качество модели.
Ключевые слова: распределенное обучение, параллелизм модели, сжатие активаций, сжатие градиентов, техники компенсации ошибки.
Финансовая поддержка Номер гранта
Российский научный фонд 23-11-00229
Исследования А. Безносикова были поддержаны Российским научным фондом (проект № 23-11-00229).
Статья представлена к публикации: А. Л. Семёнов
Поступило: 01.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023
Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S272–S281
DOI: https://doi.org/10.1134/S1064562423701314
Реферативные базы данных:
Тип публикации: Статья
УДК: 517.54
Образец цитирования: М. И. Рудаков, А. Н. Безносиков, Я. А. Холодов, А. В. Гасников, “Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 126–137; Dokl. Math., 108:suppl. 2 (2023), S272–S281
Цитирование в формате AMSBIB
\RBibitem{RudBezKho23}
\by М.~И.~Рудаков, А.~Н.~Безносиков, Я.~А.~Холодов, А.~В.~Гасников
\paper Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2023
\vol 514
\issue 2
\pages 126--137
\mathnet{http://mi.mathnet.ru/danma458}
\crossref{https://doi.org/10.31857/S2686954323601562}
\elib{https://elibrary.ru/item.asp?id=56717792}
\transl
\jour Dokl. Math.
\yr 2023
\vol 108
\issue suppl. 2
\pages S272--S281
\crossref{https://doi.org/10.1134/S1064562423701314}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma458
  • https://www.mathnet.ru/rus/danma/v514/i2/p126
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:127
    Список литературы:24
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024