|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым
Д. Б. Рохлин Южный федеральный университет, Институт математики, механики и компьютерных наук им. И. И. Воровича, Ростов-на-Дону, Россия
Аннотация:
Рассматривается игра между лидером и ведомым, в которой действия игроков влияют на стохастическую динамику процесса состояний $x_t$, $t\in\mathbf Z_+$. Игроки наблюдают свои выигрыши и состояние $x_t$ системы. Переходное ядро процесса $x_t$ и функции доходов оппонента им неизвестны. На каждом шаге игры лидер выбирает действие $a_t$ первым. При выборе действия $b_t$ ведомому известно $a_t$. Действия ведомого лидеру неизвестны (неинформированный лидер).
Каждый из игроков стремится максимизировать дисконтированный критерий, применяя алгоритм $Q$-обучения. Рандомизированные стратегии игроков определяются распределениями Больцмана, зависящими от $Q$-функций, обновляемых в процессе обучения. Особенность рассматриваемого алгоритма состоит в том, что при обновлении своей $Q$-функции ведомый считает, что действие лидера в следующем состоянии будет таким же, как в текущем (наивный ведомый). Показано, что для сходимости алгоритма достаточно существования детерминированных стационарных стратегий, порождающих неразложимую марковскую цепь. Предельное поведение $Q$-функций игроков при больших значениях времени описано в терминах управляемых марковских процессов. Распределения действий игроков сходятся к распределениям Больцмана, зависящим от предельных $Q$-функций.
Ключевые слова:
$Q$-обучение, лидер, ведомый, стохастическая игра Штакельберга, дисконтированный критерий, распределение Больцмана.
Поступила в редакцию: 18.06.2018 Исправленный вариант: 12.10.2018 Принята в печать: 18.10.2018
Образец цитирования:
Д. Б. Рохлин, “$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым”, Теория вероятн. и ее примен., 64:1 (2019), 53–74; Theory Probab. Appl., 64:1 (2019), 41–58
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tvp5231https://doi.org/10.4213/tvp5231 https://www.mathnet.ru/rus/tvp/v64/i1/p53
|
Статистика просмотров: |
Страница аннотации: | 319 | PDF полного текста: | 81 | Список литературы: | 37 | Первая страница: | 15 |
|