Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 250–261
DOI: https://doi.org/10.31857/S2686954323601501
(Mi danma470)
 

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений

В. Э. Большаков, А. Н. Алфимцев

Московский государственный технический университет имени Н. Э. Баумана, Москва, Россия
Список литературы:
Аннотация: В быстро развивающейся области обучения с подкреплением слияние иерархических и мультиагентных методов обучения преподносит уникальные трудности и открывает новые возможности. В данной статье рассматривается сочетание многоуровневого иерархического обучения с обнаружением промежуточных целей и мультиагентного обучения с подкреплением с воспроизведением ретроспективного опыта. Объединение таких подходов приводит к созданию единого метода иерархического мультиагентного обучения с подкреплением, который позволяет множеству агентов эффективно обучаться в сложных средах, в том числе в средах с редкими вознаграждениями. В работе демонстрируются результаты предлагаемого метода в одной из таких сред внутри стратегической игры StarCraft II, и проводится сравнение с другими существующими подходами. Предлагаемый метод разработан в парадигме централизованного обучения с децентрализованным исполнением, что позволяет достичь баланса между координацией и автономностью агентов.
Ключевые слова: мультиагентное обучение с подкреплением, иерархическое обучение, обнаружение промежуточных целей, воспроизведение ретроспективного опыта, централизованное обучение с децентрализованным исполнением, редкие вознаграждения.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации FSFN-2023-0006
Работа выполнена при поддержке НИР Госзадание FSFN-2023-0006.
Статья представлена к публикации: А. А. Шананин
Поступило: 01.09.2023
После доработки: 29.09.2023
Принято к публикации: 18.10.2023
Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S382–S392
DOI: https://doi.org/10.1134/S1064562423701132
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.8
Образец цитирования: В. Э. Большаков, А. Н. Алфимцев, “Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 250–261; Dokl. Math., 108:suppl. 2 (2023), S382–S392
Цитирование в формате AMSBIB
\RBibitem{BolAlf23}
\by В.~Э.~Большаков, А.~Н.~Алфимцев
\paper Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2023
\vol 514
\issue 2
\pages 250--261
\mathnet{http://mi.mathnet.ru/danma470}
\crossref{https://doi.org/10.31857/S2686954323601501}
\elib{https://elibrary.ru/item.asp?id=56717831}
\transl
\jour Dokl. Math.
\yr 2023
\vol 108
\issue suppl. 2
\pages S382--S392
\crossref{https://doi.org/10.1134/S1064562423701132}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma470
  • https://www.mathnet.ru/rus/danma/v514/i2/p250
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:40
    Список литературы:4
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024