|
Математическая теория игр и её приложения, 2023, том 15, выпуск 4, страницы 3–27
(Mi mgta328)
|
|
|
|
Стратегии UCB и оптимизация пакетной обработки в задаче об одноруком бандите
Сергей В. Гарбарь, Александр В. Колногоров, Алексей Н. Лазутченко Новгородский государственный университет им. Ярослава Мудрого, 173003, Великий Новгород, ул. Б.С.-Петербургская, 41
Аннотация:
Рассматривается задача о гауссовском одноруком бандите, которая возникает при оптимизации пакетной обработки данных, если имеются два альтернативных метода обработки с априори известной эффективностью первого метода. В процессе обработки необходимо определить более эффективный метод и обеспечить его преимущественное использование. Данная задача оптимального управления имеет интерпретацию как игра с природой. Мы исследуем случаи известной и априори неизвестной дисперсии дохода, соответствующей второму методу. Цель управления рассматривается в минимаксной постановке, а для ее обеспечения используются стратегии UCB. Во всех исследуемых случаях получены инвариантные описания управления на единичном горизонте, которые зависят только от количества пакетов, на которые разбиты данные, но не от их полного числа. Эти описания позволяют определить приблизительно оптимальные параметры стратегий с помощью моделирования методом Монте-Карло. Численные результаты показывают высокую эффективность предложенных стратегий UCB.
Ключевые слова:
гауссовский однорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло.
Поступила в редакцию: 07.05.2023 Исправленный вариант: 24.10.2023 Принята в печать: 01.12.2023
Образец цитирования:
Сергей В. Гарбарь, Александр В. Колногоров, Алексей Н. Лазутченко, “Стратегии UCB и оптимизация пакетной обработки в задаче об одноруком бандите”, МТИП, 15:4 (2023), 3–27
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mgta328 https://www.mathnet.ru/rus/mgta/v15/i4/p3
|
|