Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, том 508, страницы 79–87
DOI: https://doi.org/10.31857/S2686954322070177
(Mi danma340)
 

ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением

И. К. Минашина, Р. А. Горбачев, Е. М. Захарова

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный
Список литературы:
Аннотация: Статья посвящена решению задачи планирования расписаний в мультиагентных системах в рамках конкурса Flatland 3. Основная цель конкурса – разработать алгоритм эффективного управления плотным движением на сложных железнодорожных сетях в соответствии с заданным графиком движения. Предложенное решение основано на использовании метода обучения с подкреплением (Reinforcement Learning). Для его адаптации к специфике задачи был разработан новый подход, основанный на методике структурирования вознаграждения, стимулирующий агента следовать своему расписанию. Архитектура предлагаемой модели основана на многоагентной вариации централизованного критика с обучением по типу Proximal Policy Optimization (PPO). Кроме того, была разработана и реализована стратегия обучения по расписанию. Это позволило агенту вовремя справляться с каждым уровнем сложности и тренировать модель в более сложных условиях. Данное решение заняло первое место в конкурсе Flatland 3 в треке Reinforcement Learning.
Ключевые слова: обучение с подкреплением, мультиагентные системы, железные дороги, Flatland, структурирование функции вознаграждений, обучение по расписанию, централизованный критик.
Статья представлена к публикации: А. Л. Семёнов
Поступило: 28.10.2022
После доработки: 28.10.2022
Принято к публикации: 01.11.2022
Англоязычная версия:
Doklady Mathematics, 2022, Volume 106, Issue suppl. 1, Pages S70–S78
DOI: https://doi.org/10.1134/S1064562422060175
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.8
Образец цитирования: И. К. Минашина, Р. А. Горбачев, Е. М. Захарова, “Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением”, Докл. РАН. Матем., информ., проц. упр., 508 (2022), 79–87; Dokl. Math., 106:suppl. 1 (2022), S70–S78
Цитирование в формате AMSBIB
\RBibitem{MinGorZak22}
\by И.~К.~Минашина, Р.~А.~Горбачев, Е.~М.~Захарова
\paper Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2022
\vol 508
\pages 79--87
\mathnet{http://mi.mathnet.ru/danma340}
\crossref{https://doi.org/10.31857/S2686954322070177}
\elib{https://elibrary.ru/item.asp?id=49991313}
\transl
\jour Dokl. Math.
\yr 2022
\vol 106
\issue suppl. 1
\pages S70--S78
\crossref{https://doi.org/10.1134/S1064562422060175}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma340
  • https://www.mathnet.ru/rus/danma/v508/p79
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:63
    Список литературы:16
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024