Семинары
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Календарь
Поиск
Регистрация семинара

RSS
Ближайшие семинары




Общероссийский семинар по оптимизации им. Б.Т. Поляка
7 октября 2022 г. 18:40, Москва, Онлайн, пятница, 19:00
 


Рандомизированный оптимизм в обучении с подкреплением

Д. Н. Тяпкин
Дополнительные материалы:
Adobe PDF 3.0 Mb

Количество просмотров:
Эта страница:202
Материалы:14
Youtube:



Аннотация: Основным вопросом классической онлайн постановки обучения с подкреплением является exploration-exploitation дилемма. Классические результаты в этой области предлагают действовать согласно принципу "Оптимизм перед лицом неопределенности" – оценивать функцию ценности действия не средней ценностью, а верхней границей доверительного интервала на нее при помощи добавления бонусов. К сожалению, данный подход не является обобщаемым в любом сеттинге, кроме конечных и линейных MDP. Вместо этого подхода в серии статей Osband прелагает пользоваться рандомизацией, а именно – добавлением шума к полученным наградам, или же семплирование модели окружения из апостериорного распределения. Этот подход обобщаем на случай Deep RL, а потому интересен в практическом сообществе. В нашей работе https://arxiv.org/abs/2205.07704 мы представили оптимистичный алгоритм, который является почти теоретически оптимальным, и при этом обобщаем на случай глубинного обучения за счет его внутренней рандомизированной структуры и связи с Байесовским бутстрапом. Для доказательства оптимальности этого алгоритма было доказано анти-концентрационное неравенство для взвешенных сумм распределения Дирихле, которое представляет отдельный интерес.

Дополнительные материалы: slides_exploration_optimization_seminar1.pdf (3.0 Mb)
 
  Обратная связь:
 Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024