Теория вероятностей и ее применения
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор
Правила для авторов
Загрузить рукопись

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Теория вероятн. и ее примен.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Теория вероятностей и ее применения, 2019, том 64, выпуск 1, страницы 53–74
DOI: https://doi.org/10.4213/tvp5231
(Mi tvp5231)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым

Д. Б. Рохлин

Южный федеральный университет, Институт математики, механики и компьютерных наук им. И. И. Воровича, Ростов-на-Дону, Россия
Список литературы:
Аннотация: Рассматривается игра между лидером и ведомым, в которой действия игроков влияют на стохастическую динамику процесса состояний $x_t$, $t\in\mathbf Z_+$. Игроки наблюдают свои выигрыши и состояние $x_t$ системы. Переходное ядро процесса $x_t$ и функции доходов оппонента им неизвестны. На каждом шаге игры лидер выбирает действие $a_t$ первым. При выборе действия $b_t$ ведомому известно $a_t$. Действия ведомого лидеру неизвестны (неинформированный лидер).
Каждый из игроков стремится максимизировать дисконтированный критерий, применяя алгоритм $Q$-обучения. Рандомизированные стратегии игроков определяются распределениями Больцмана, зависящими от $Q$-функций, обновляемых в процессе обучения. Особенность рассматриваемого алгоритма состоит в том, что при обновлении своей $Q$-функции ведомый считает, что действие лидера в следующем состоянии будет таким же, как в текущем (наивный ведомый). Показано, что для сходимости алгоритма достаточно существования детерминированных стационарных стратегий, порождающих неразложимую марковскую цепь. Предельное поведение $Q$-функций игроков при больших значениях времени описано в терминах управляемых марковских процессов. Распределения действий игроков сходятся к распределениям Больцмана, зависящим от предельных $Q$-функций.
Ключевые слова: $Q$-обучение, лидер, ведомый, стохастическая игра Штакельберга, дисконтированный критерий, распределение Больцмана.
Финансовая поддержка Номер гранта
Российский научный фонд 17-19-01038
Работа выполнена при финансовой поддержке Российского научного фонда (проект № 17-19-01038).
Поступила в редакцию: 18.06.2018
Исправленный вариант: 12.10.2018
Принята в печать: 18.10.2018
Англоязычная версия:
Theory of Probability and its Applications, 2019, Volume 64, Issue 1, Pages 41–58
DOI: https://doi.org/10.1137/S0040585X97T989386
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: Д. Б. Рохлин, “$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым”, Теория вероятн. и ее примен., 64:1 (2019), 53–74; Theory Probab. Appl., 64:1 (2019), 41–58
Цитирование в формате AMSBIB
\RBibitem{Rok19}
\by Д.~Б.~Рохлин
\paper $Q$-обучение в~стохастической игре Штакельберга между неинформированным лидером и наивным ведомым
\jour Теория вероятн. и ее примен.
\yr 2019
\vol 64
\issue 1
\pages 53--74
\mathnet{http://mi.mathnet.ru/tvp5231}
\crossref{https://doi.org/10.4213/tvp5231}
\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=3904805}
\zmath{https://zbmath.org/?q=an:07062745}
\elib{https://elibrary.ru/item.asp?id=37090012}
\transl
\jour Theory Probab. Appl.
\yr 2019
\vol 64
\issue 1
\pages 41--58
\crossref{https://doi.org/10.1137/S0040585X97T989386}
\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000466860200004}
\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85067334309}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tvp5231
  • https://doi.org/10.4213/tvp5231
  • https://www.mathnet.ru/rus/tvp/v64/i1/p53
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Теория вероятностей и ее применения Theory of Probability and its Applications
    Статистика просмотров:
    Страница аннотации:303
    PDF полного текста:75
    Список литературы:33
    Первая страница:15
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024