М. И. Рудаков, А. Н. Безносиков, Я. А. Холодов, А. В. Гасников, “Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 126–137; Dokl. Math., 108:suppl. 2 (2023), S272

Доклады Российской академии наук. Математика, информатика, процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 126–137
DOI: https://doi.org/10.31857/S2686954323601562 (Mi danma458)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта

М. И. Рудаков^ab, А. Н. Безносиков^ab, Я. А. Холодов^ab, А. В. Гасников^ab

^a Университет Иннополис, Иннополис, Республика Татарстан, Россия
^b Московский физико-технический институт, Москва, Россия

Список литературы:

PDF

HTML

DOI: https://doi.org/10.31857/S2686954323601562

Аннотация: Современные большие нейронные сети требуют для обучения огромных вычислительных ресурсов. В такой постановке параллелизация процесса обучения, когда последовательные слои модели разбиваются между устройствами, является популярным подходом для обучения больших моделей. Для уменьшения времени обмена данными между устройствами, часто являющимся узким местом в таких системах, применяется сжатие информации. В данной работе исследуется влияние одновременного сжатия активаций и градиентов в режиме параллелизации по модели на сходимость процесса обучения. Мы анализируем такие подходы, как квантизация и “жадное” TopK сжатие, а также экспериментируем с методами компенсации ошибки. Мы исследуем TopK сжатие с использованием подхода AQ-SGD с побатчевой компенсацией ошибки сжатия. Сравнения проводятся на задачах обучения ResNet18 и дообучения GPT-2. Полученные нами результаты показывают, что градиенты более чувствительны к степени сжатия, чем активации слоев модели. По нашим наблюдениям, $K=10\%$ – это максимальный уровень сжатия TopK, который не оказывает сильного влияния на сходимость модели. Эксперименты также показывают, что модели, обученные с использованием сжатия TopK, хорошо работают только в том случае, если сжатие применяется и во время валидации. Мы обнаружили, что техники компенсации ошибки одновременно для активаций и градиентов не улучшают сходимость по сравнению с обычным сжатием. Наконец, применение подхода AQ-SGD с TopK сжатием сильнее, чем при $K=30\%$, значительно ухудшает качество модели.

Ключевые слова: распределенное обучение, параллелизм модели, сжатие активаций, сжатие градиентов, техники компенсации ошибки.

Финансовая поддержка	Номер гранта
Российский научный фонд	23-11-00229
Исследования А. Безносикова были поддержаны Российским научным фондом (проект № 23-11-00229).

Статья представлена к публикации: А. Л. Семёнов
Поступило: 01.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023

Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S272–S281
DOI: https://doi.org/10.1134/S1064562423701314

Реферативные базы данных:

Тип публикации: Статья

УДК: 517.54

Образец цитирования: М. И. Рудаков, А. Н. Безносиков, Я. А. Холодов, А. В. Гасников, “Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 126–137; Dokl. Math., 108:suppl. 2 (2023), S272–S281

Цитирование в формате AMSBIB

\RBibitem{RudBezKho23}

\by М.~И.~Рудаков, А.~Н.~Безносиков, Я.~А.~Холодов, А.~В.~Гасников

\paper Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта

\jour Докл. РАН. Матем., информ., проц. упр.

\yr 2023

\vol 514

\issue 2

\pages 126--137

\mathnet{http://mi.mathnet.ru/danma458}

\crossref{https://doi.org/10.31857/S2686954323601562}

\elib{https://elibrary.ru/item.asp?id=56717792}

\transl

\jour Dokl. Math.

\yr 2023

\vol 108

\issue suppl. 2

\pages S272--S281

\crossref{https://doi.org/10.1134/S1064562423701314}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/danma458

https://www.mathnet.ru/rus/danma/v514/i2/p126

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Доклады Российской академии наук. Математика, информатика, процессы управления

Статистика просмотров:
Страница аннотации:	127
Список литературы:	24

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы