В. Э. Большаков, А. Н. Алфимцев, “Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 250–261; Dokl. Math., 108:suppl. 2 (2023), S382

Доклады Российской академии наук. Математика, информатика, процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 250–261
DOI: https://doi.org/10.31857/S2686954323601501 (Mi danma470)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений

В. Э. Большаков, А. Н. Алфимцев

Московский государственный технический университет имени Н. Э. Баумана, Москва, Россия

Список литературы:

PDF

HTML

DOI: https://doi.org/10.31857/S2686954323601501

Аннотация: В быстро развивающейся области обучения с подкреплением слияние иерархических и мультиагентных методов обучения преподносит уникальные трудности и открывает новые возможности. В данной статье рассматривается сочетание многоуровневого иерархического обучения с обнаружением промежуточных целей и мультиагентного обучения с подкреплением с воспроизведением ретроспективного опыта. Объединение таких подходов приводит к созданию единого метода иерархического мультиагентного обучения с подкреплением, который позволяет множеству агентов эффективно обучаться в сложных средах, в том числе в средах с редкими вознаграждениями. В работе демонстрируются результаты предлагаемого метода в одной из таких сред внутри стратегической игры StarCraft II, и проводится сравнение с другими существующими подходами. Предлагаемый метод разработан в парадигме централизованного обучения с децентрализованным исполнением, что позволяет достичь баланса между координацией и автономностью агентов.

Ключевые слова: мультиагентное обучение с подкреплением, иерархическое обучение, обнаружение промежуточных целей, воспроизведение ретроспективного опыта, централизованное обучение с децентрализованным исполнением, редкие вознаграждения.

Финансовая поддержка	Номер гранта
Министерство науки и высшего образования Российской Федерации	FSFN-2023-0006
Работа выполнена при поддержке НИР Госзадание FSFN-2023-0006.

Статья представлена к публикации: А. А. Шананин
Поступило: 01.09.2023
После доработки: 29.09.2023
Принято к публикации: 18.10.2023

Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S382–S392
DOI: https://doi.org/10.1134/S1064562423701132

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.8

Образец цитирования: В. Э. Большаков, А. Н. Алфимцев, “Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 250–261; Dokl. Math., 108:suppl. 2 (2023), S382–S392

Цитирование в формате AMSBIB

\RBibitem{BolAlf23}

\by В.~Э.~Большаков, А.~Н.~Алфимцев

\paper Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений

\jour Докл. РАН. Матем., информ., проц. упр.

\yr 2023

\vol 514

\issue 2

\pages 250--261

\mathnet{http://mi.mathnet.ru/danma470}

\crossref{https://doi.org/10.31857/S2686954323601501}

\elib{https://elibrary.ru/item.asp?id=56717831}

\transl

\jour Dokl. Math.

\yr 2023

\vol 108

\issue suppl. 2

\pages S382--S392

\crossref{https://doi.org/10.1134/S1064562423701132}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/danma470

https://www.mathnet.ru/rus/danma/v514/i2/p250

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Доклады Российской академии наук. Математика, информатика, процессы управления

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы