|
ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением
И. К. Минашина, Р. А. Горбачев, Е. М. Захарова Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный
Аннотация:
Статья посвящена решению задачи планирования расписаний в мультиагентных системах в рамках конкурса Flatland 3. Основная цель конкурса – разработать алгоритм эффективного управления плотным движением на сложных железнодорожных сетях в соответствии с заданным графиком движения. Предложенное решение основано на использовании метода обучения с подкреплением (Reinforcement Learning). Для его адаптации к специфике задачи был разработан новый подход, основанный на методике структурирования вознаграждения, стимулирующий агента следовать своему расписанию. Архитектура предлагаемой модели основана на многоагентной вариации централизованного критика с обучением по типу Proximal Policy Optimization (PPO). Кроме того, была разработана и реализована стратегия обучения по расписанию. Это позволило агенту вовремя справляться с каждым уровнем сложности и тренировать модель в более сложных условиях. Данное решение заняло первое место в конкурсе Flatland 3 в треке Reinforcement Learning.
Ключевые слова:
обучение с подкреплением, мультиагентные системы, железные дороги, Flatland, структурирование функции вознаграждений, обучение по расписанию, централизованный критик.
Образец цитирования:
И. К. Минашина, Р. А. Горбачев, Е. М. Захарова, “Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением”, Докл. РАН. Матем., информ., проц. упр., 508 (2022), 79–87; Dokl. Math., 106:suppl. 1 (2022), S70–S78
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/danma340 https://www.mathnet.ru/rus/danma/v508/p79
|
Статистика просмотров: |
Страница аннотации: | 63 | Список литературы: | 16 |
|