Аннотация:
Задача о поведении в случайной среде, известная как задача о двуруком бандите, рассматривается в робастной (минимаксной) постановке. Предложена стратегия параллельного управления, которая в средах с нормально распределенными доходами, имеющими единичные дисперсии, обеспечивает управление, сколь угодно близкое к оптимальному. Получено инвариантное рекуррентное уравнение для нахождения минимаксных стратегии и риска, которые ищутся как байесовские, соответствующие наихудшему априорному распределению. Это позволяет улучшить известные оценки минимаксного риска Фогеля (W. Vogel). Численный анализ показывает, что стратегия хорошо функционирует в средах с распределениями, отличающимися от нормальных (например, бинарных).
Статья представлена к публикации членом редколлегии:А. В. Назин
Образец цитирования:
А. В. Колногоров, “Робастное параллельное управление в случайной среде (задаче о двуруком бандите)”, Автомат. и телемех., 2012, № 4, 114–130; Autom. Remote Control, 73:4 (2012), 689–701
\RBibitem{Kol12}
\by А.~В.~Колногоров
\paper Робастное параллельное управление в~случайной среде (задаче о~двуруком бандите)
\jour Автомат. и телемех.
\yr 2012
\issue 4
\pages 114--130
\mathnet{http://mi.mathnet.ru/at3793}
\transl
\jour Autom. Remote Control
\yr 2012
\vol 73
\issue 4
\pages 689--701
\crossref{https://doi.org/10.1134/S000511791204008X}
\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000302809600008}
\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-84862121337}
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/at3793
https://www.mathnet.ru/rus/at/y2012/i4/p114
Эта публикация цитируется в следующих 15 статьяx:
Sergey Garbar, Communications in Computer and Information Science, 1881, Mathematical Optimization Theory and Operations Research: Recent Trends, 2023, 79
Data Analysis and Related Applications 1, 2022, 163
S V Garbar, “Dependency of regret on accuracy of variance estimation for different versions of UCB strategy for Gaussian multi-armed bandits”, J. Phys.: Conf. Ser., 2052:1 (2021), 012013
А. В. Колногоров, “Гауссовский двурукий бандит: предельное описание”, Пробл. передачи информ., 56:3 (2020), 86–111; A. V. Kolnogorov, “Gaussian two-armed bandit: limiting description”, Problems Inform. Transmission, 56:3 (2020), 278–301
Sergey Garbar, 2020 24th International Conference on Circuits, Systems, Communications and Computers (CSCC), 2020, 75
S V Garbar, “Invariant description for batch version of UCB strategy for multi-armed bandit”, J. Phys.: Conf. Ser., 1658:1 (2020), 012015
A. Kolnogorov, “Minimax normal two-armed bandit with indefinite control horizon”, 2016 International Conference Applied Mathematics, Computational Science and Systems Engineering, ITM Web of Conferences, 9, eds. N. Bardis, J. Quartieri, C. Guarnaccia, N. Doukas, EDP Sciences, 2017, UNSP 01002
A. Kolnogorov, D. Shiyan, “Parallel version of the mirror descent algorithm for the two-armed bandit problem”, Proceedings of the 3rd International Conference on Mathematics and Computers in Sciences and in Industry (Mcsi 2016), IEEE, 2016, 241–245
A. V. Kolnogorov, “Adaptive normal two-armed bandit and data processing optimization”, IFAC-PapersOnLine, 49:13 (2016), 241–246
Alexander Kolnogorov, Dmitry Shiyan, 2016 Third International Conference on Mathematics and Computers in Sciences and in Industry (MCSI), 2016, 241
Alexander V. Kolnogorov, “A Generalization of Robust Normal Two-Armed Bandit**This work was supported in part by the Project Part of the State Assignment in the Field of Scientific Activity by the Ministry of Education and Science of the Russian Federation, project no. 1.949.2014/K.”, IFAC-PapersOnLine, 49:13 (2016), 247
А. В. Колногоров, “К предельному описанию робастного параллельного управления в случайной среде”, Автомат. и телемех., 2015, № 7, 111–126; A. V. Kolnogorov, “On a limiting description of robust parallel control in a random environment”, Autom. Remote Control, 76:7 (2015), 1229–1241
А. В. Колногоров, “Робастное параллельное управление в случайной среде и оптимизация обработки данных”, Автомат. и телемех., 2014, № 12, 42–55; A. V. Kolnogorov, “Robust parallel control in a random environment and data processing optimization”, Autom. Remote Control, 75:12 (2014), 2124–2134
А. О. Олейников, “Численная оптимизация параллельной обработки в стационарной случайной среде”, Труды карельского научного центра российской академии наук, 2013, № 1, 73–78
Alexander V. Kolnogorov, “Robust Normal Two-Armed Bandit, One Arm Known, and Parallel Data Processing”, IFAC Proceedings Volumes, 46:11 (2013), 263