|
Проблемы передачи информации, 2000, том 36, выпуск 4, страницы 117–127
(Mi ppi501)
|
|
|
|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Теория автоматов
Об оптимальном априорном времени обучения в задаче о “двуруком бандите”
А. В. Колногоров
Аннотация:
Для задачи о “двуруком бандите”, рассматриваемой на конечном известном
отрезке времени $T$, предложена стратегия с априори определяемым временем
обучения. На основе уравнения баланса потерь устанавливается его точная
асимптотическая оценка, порядок которой равен $T^{2/3}$ . Для близких распределений
оценка меняется: для бернуллиевского “двурукого бандита” в этом случае
время обучения приблизительно равно $T/3$.
Поступила в редакцию: 22.06.1999 После переработки: 24.07.2000
Образец цитирования:
А. В. Колногоров, “Об оптимальном априорном времени обучения в задаче о “двуруком бандите””, Пробл. передачи информ., 36:4 (2000), 117–127; Problems Inform. Transmission, 36:4 (2000), 387–396
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ppi501 https://www.mathnet.ru/rus/ppi/v36/i4/p117
|
Статистика просмотров: |
Страница аннотации: | 328 | PDF полного текста: | 116 | Список литературы: | 51 | Первая страница: | 1 |
|