Математическая теория игр и её приложения
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



МТИП:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Математическая теория игр и её приложения, 2022, том 14, выпуск 2, страницы 3–30 (Mi mgta299)  

Адаптация стратегии UCB Дж. Басера для гауссовского многорукого бандита

Сергей В. Гарбарь, Александр В. Колногоров

Новгородский государственный университет им. Ярослава Мудрого, 173003, Великий Новгород, ул. Б.С.-Петербургская, 41
Список литературы:
Аннотация: Рассмотрена адаптация стратегии UCB, впервые предложенной Дж. Басером для бернуллиевского двурукого бандита, на случай гауссовского многорукого бандита, описывающего пакетную обработку данных. Эта задача оптимального управления имеет классическую интерпретацию как игра с природой, в которой платежной функцией игрока является математическое ожидание потерь полного дохода, вызванное неполнотой информации. Цель управления сформулирована в минимаксной постановке. Для рассмотренной игры с природой построено инвариантное описание управления с горизонтом равным единице, позволяющее выполнять расчеты двумя способами: с использованием моделирования Монте-Карло и аналитически методом динамического программирования. Для различных конфигураций рассматриваемой игры с природой численными методами найдены седловые точки, характеризующие оптимальное управление и наихудшее распределение параметров многорукого бандита.
Ключевые слова: задача о многоруком бандите, гауссовский многорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло, динамическое программирование.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 20-01-00062
Исследование выполнено при финансовой поддержке РФФИ, научный проект номер 20-01-00062.
Поступила в редакцию: 10.10.2021
Исправленный вариант: 03.03.2022
Принята в печать: 16.05.2022
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.832, 519.245
ББК: 22.18
Образец цитирования: Сергей В. Гарбарь, Александр В. Колногоров, “Адаптация стратегии UCB Дж. Басера для гауссовского многорукого бандита”, МТИП, 14:2 (2022), 3–30
Цитирование в формате AMSBIB
\RBibitem{GarKol22}
\by Сергей~В.~Гарбарь, Александр~В.~Колногоров
\paper Адаптация стратегии UCB Дж.~Басера для гауссовского многорукого бандита
\jour МТИП
\yr 2022
\vol 14
\issue 2
\pages 3--30
\mathnet{http://mi.mathnet.ru/mgta299}
\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=4459156}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mgta299
  • https://www.mathnet.ru/rus/mgta/v14/i2/p3
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Математическая теория игр и её приложения
    Статистика просмотров:
    Страница аннотации:132
    PDF полного текста:55
    Список литературы:25
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024