И. К. Минашина, Р. А. Горбачев, Е. М. Захарова, “Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением”, Докл. РАН. Матем., информ., проц. упр., 508 (2022), 79–87; Dokl. Math., 106:suppl. 1 (2022), S70

Доклады Российской академии наук. Математика, информатика, процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, том 508, страницы 79–87
DOI: https://doi.org/10.31857/S2686954322070177 (Mi danma340)

ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением

И. К. Минашина, Р. А. Горбачев, Е. М. Захарова

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный

Список литературы:

PDF

HTML

DOI: https://doi.org/10.31857/S2686954322070177

Аннотация: Статья посвящена решению задачи планирования расписаний в мультиагентных системах в рамках конкурса Flatland 3. Основная цель конкурса – разработать алгоритм эффективного управления плотным движением на сложных железнодорожных сетях в соответствии с заданным графиком движения. Предложенное решение основано на использовании метода обучения с подкреплением (Reinforcement Learning). Для его адаптации к специфике задачи был разработан новый подход, основанный на методике структурирования вознаграждения, стимулирующий агента следовать своему расписанию. Архитектура предлагаемой модели основана на многоагентной вариации централизованного критика с обучением по типу Proximal Policy Optimization (PPO). Кроме того, была разработана и реализована стратегия обучения по расписанию. Это позволило агенту вовремя справляться с каждым уровнем сложности и тренировать модель в более сложных условиях. Данное решение заняло первое место в конкурсе Flatland 3 в треке Reinforcement Learning.

Ключевые слова: обучение с подкреплением, мультиагентные системы, железные дороги, Flatland, структурирование функции вознаграждений, обучение по расписанию, централизованный критик.

Статья представлена к публикации: А. Л. Семёнов
Поступило: 28.10.2022
После доработки: 28.10.2022
Принято к публикации: 01.11.2022

Англоязычная версия:
Doklady Mathematics, 2022, Volume 106, Issue suppl. 1, Pages S70–S78
DOI: https://doi.org/10.1134/S1064562422060175

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.8

Образец цитирования: И. К. Минашина, Р. А. Горбачев, Е. М. Захарова, “Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением”, Докл. РАН. Матем., информ., проц. упр., 508 (2022), 79–87; Dokl. Math., 106:suppl. 1 (2022), S70–S78

Цитирование в формате AMSBIB

\RBibitem{MinGorZak22}

\by И.~К.~Минашина, Р.~А.~Горбачев, Е.~М.~Захарова

\paper Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением

\jour Докл. РАН. Матем., информ., проц. упр.

\yr 2022

\vol 508

\pages 79--87

\mathnet{http://mi.mathnet.ru/danma340}

\crossref{https://doi.org/10.31857/S2686954322070177}

\elib{https://elibrary.ru/item.asp?id=49991313}

\transl

\jour Dokl. Math.

\yr 2022

\vol 106

\issue suppl. 1

\pages S70--S78

\crossref{https://doi.org/10.1134/S1064562422060175}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/danma340

https://www.mathnet.ru/rus/danma/v508/p79

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Доклады Российской академии наук. Математика, информатика, процессы управления

Статистика просмотров:
Страница аннотации:	63
Список литературы:	16

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы