Д. Б. Рохлин, “$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым”, Теория вероятн. и ее примен., 64:1 (2019), 53–74; Theory Probab. Appl., 64:1 (2019), 41

Теория вероятностей и ее применения

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор
	Правила для авторов
	Загрузить рукопись

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Теория вероятн. и ее примен.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Теория вероятностей и ее применения, 2019, том 64, выпуск 1, страницы 53–74
DOI: https://doi.org/10.4213/tvp5231 (Mi tvp5231)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым

Д. Б. Рохлин

Южный федеральный университет, Институт математики, механики и компьютерных наук им. И. И. Воровича, Ростов-на-Дону, Россия

PDF полного текста (512 kB) Список цитирования (1)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.4213/tvp5231

Аннотация: Рассматривается игра между лидером и ведомым, в которой действия игроков влияют на стохастическую динамику процесса состояний $x_t$, $t\in\mathbf Z_+$. Игроки наблюдают свои выигрыши и состояние $x_t$ системы. Переходное ядро процесса $x_t$ и функции доходов оппонента им неизвестны. На каждом шаге игры лидер выбирает действие $a_t$ первым. При выборе действия $b_t$ ведомому известно $a_t$. Действия ведомого лидеру неизвестны (неинформированный лидер).
Каждый из игроков стремится максимизировать дисконтированный критерий, применяя алгоритм $Q$-обучения. Рандомизированные стратегии игроков определяются распределениями Больцмана, зависящими от $Q$-функций, обновляемых в процессе обучения. Особенность рассматриваемого алгоритма состоит в том, что при обновлении своей $Q$-функции ведомый считает, что действие лидера в следующем состоянии будет таким же, как в текущем (наивный ведомый). Показано, что для сходимости алгоритма достаточно существования детерминированных стационарных стратегий, порождающих неразложимую марковскую цепь. Предельное поведение $Q$-функций игроков при больших значениях времени описано в терминах управляемых марковских процессов. Распределения действий игроков сходятся к распределениям Больцмана, зависящим от предельных $Q$-функций.

Ключевые слова: $Q$-обучение, лидер, ведомый, стохастическая игра Штакельберга, дисконтированный критерий, распределение Больцмана.

Финансовая поддержка	Номер гранта
Российский научный фонд	17-19-01038
Работа выполнена при финансовой поддержке Российского научного фонда (проект № 17-19-01038).

Поступила в редакцию: 18.06.2018
Исправленный вариант: 12.10.2018
Принята в печать: 18.10.2018

Англоязычная версия:
Theory of Probability and its Applications, 2019, Volume 64, Issue 1, Pages 41–58
DOI: https://doi.org/10.1137/S0040585X97T989386

Реферативные базы данных:

Тип публикации: Статья

Образец цитирования: Д. Б. Рохлин, “$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым”, Теория вероятн. и ее примен., 64:1 (2019), 53–74; Theory Probab. Appl., 64:1 (2019), 41–58

Цитирование в формате AMSBIB

\RBibitem{Rok19}

\by Д.~Б.~Рохлин

\paper $Q$-обучение в~стохастической игре Штакельберга между неинформированным лидером и наивным ведомым

\jour Теория вероятн. и ее примен.

\yr 2019

\vol 64

\issue 1

\pages 53--74

\mathnet{http://mi.mathnet.ru/tvp5231}

\crossref{https://doi.org/10.4213/tvp5231}

\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=3904805}

\zmath{https://zbmath.org/?q=an:07062745}

\elib{https://elibrary.ru/item.asp?id=37090012}

\transl

\jour Theory Probab. Appl.

\yr 2019

\vol 64

\issue 1

\pages 41--58

\crossref{https://doi.org/10.1137/S0040585X97T989386}

\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000466860200004}

\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85067334309}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tvp5231

https://doi.org/10.4213/tvp5231

https://www.mathnet.ru/rus/tvp/v64/i1/p53

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Theory of Probability and its Applications

Статистика просмотров:
Страница аннотации:	324
PDF полного текста:	84
Список литературы:	38
Первая страница:	15

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы