Сибирские электронные математические известия
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Сиб. электрон. матем. изв.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Сибирские электронные математические известия, 2022, том 19, выпуск 2, страницы 639–650
DOI: https://doi.org/10.33048/semi.2022.19.053
(Mi semr1527)
 

Эта публикация цитируется в 2 научных статьях (всего в 3 статьях)

Дискретная математика и математическая кибернетика

Gaussian one-armed bandit with both unknown parameters

A. V. Kolnogorov

Yaroslav-the-Wise Novgorod State University, 41, Bolshaya St.-Petersburgskaya str., Velikiy Novgorod, 173003, Russia
Список литературы:
Аннотация: We consider the one-armed bandit problem as applied to data processing. We assume that there are two alternative processing methods and efficiency of the second method is a priory unknown. During control process, one has to determine if the second method is more efficient than the first one and to provide a primary application of the most efficient method. The essential feature of considered approach is that the data is processed in batches and cumulative incomes in batches are used for the control. If the sizes of batches are large enough then according to the central limit theorem incomes in batches are approximately Gaussian. Also if the sizes of batches are large, one can estimate the variances of incomes during the processing initial batches and then use these estimates for the control. However, for batches of moderate sizes it is reasonable to estimate unknown variances throughout the control process. This optimization problem is described by Gaussian one-armed bandit with both unknown parameters. Given a prior distribution of unknown parameters of the second action, we derive a recursive Bellman-type equation for determining corresponding Bayesian strategy and Bayesian risk. Minimax strategy and minimax risk are searched for according to the main theorem of the game theory as Bayesian ones corresponding to the worst-case prior distribution.
Ключевые слова: one-armed bandit, Bayesian and minimax approaches, main theorem of the game theory, batch processing.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 20-01-00062
The work is supported by RFFI (grant 20-01-00062).
Поступила 20 апреля 2022 г., опубликована 2 сентября 2022 г.
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.244, 519.83
MSC: 62C10, 62L05, 91A35
Язык публикации: английский
Образец цитирования: A. V. Kolnogorov, “Gaussian one-armed bandit with both unknown parameters”, Сиб. электрон. матем. изв., 19:2 (2022), 639–650
Цитирование в формате AMSBIB
\RBibitem{Kol22}
\by A.~V.~Kolnogorov
\paper Gaussian one-armed bandit with both unknown parameters
\jour Сиб. электрон. матем. изв.
\yr 2022
\vol 19
\issue 2
\pages 639--650
\mathnet{http://mi.mathnet.ru/semr1527}
\crossref{https://doi.org/10.33048/semi.2022.19.053}
\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=4478154}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/semr1527
  • https://www.mathnet.ru/rus/semr/v19/i2/p639
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Статистика просмотров:
    Страница аннотации:92
    PDF полного текста:21
    Список литературы:23
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024