|
Математическая теория игр и её приложения, 2022, том 14, выпуск 2, страницы 3–30
(Mi mgta299)
|
|
|
|
Адаптация стратегии UCB Дж. Басера для гауссовского многорукого бандита
Сергей В. Гарбарь, Александр В. Колногоров Новгородский государственный университет им. Ярослава Мудрого, 173003, Великий Новгород, ул. Б.С.-Петербургская, 41
Аннотация:
Рассмотрена адаптация стратегии UCB, впервые предложенной Дж. Басером для бернуллиевского двурукого бандита, на случай гауссовского многорукого бандита, описывающего пакетную обработку данных. Эта задача оптимального управления имеет классическую интерпретацию как игра с природой, в которой платежной функцией игрока является математическое ожидание потерь полного дохода, вызванное неполнотой информации. Цель управления сформулирована в минимаксной постановке. Для рассмотренной игры с природой построено инвариантное описание управления с горизонтом равным единице, позволяющее выполнять расчеты двумя способами: с использованием моделирования Монте-Карло и аналитически методом динамического программирования. Для различных конфигураций рассматриваемой игры с природой численными методами найдены седловые точки, характеризующие оптимальное управление и наихудшее распределение параметров многорукого бандита.
Ключевые слова:
задача о многоруком бандите, гауссовский многорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло, динамическое программирование.
Поступила в редакцию: 10.10.2021 Исправленный вариант: 03.03.2022 Принята в печать: 16.05.2022
Образец цитирования:
Сергей В. Гарбарь, Александр В. Колногоров, “Адаптация стратегии UCB Дж. Басера для гауссовского многорукого бандита”, МТИП, 14:2 (2022), 3–30
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mgta299 https://www.mathnet.ru/rus/mgta/v14/i2/p3
|
Статистика просмотров: |
Страница аннотации: | 132 | PDF полного текста: | 55 | Список литературы: | 25 |
|