Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2023, том 15, выпуск 2, страницы 329–353
DOI: https://doi.org/10.20537/2076-7633-2023-15-2-329-353
(Mi crm1063)
 

МАТЕМАТИЧЕСКИЕ ОСНОВЫ И ЧИСЛЕННЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ

Обзор выпуклой оптимизации марковских процессов принятия решений

В. Д. Руденкоab, Н. Е. Юдинac, А. А. Васинd

a Московский физико-технический институт (национальный исследовательский университет), Россия, 141701, Московская обл., г. Долгопрудный, Институтский пер., 9
b Национальный исследовательский университет «Высшая школа экономики», Россия, 109028, г. Москва, Покровский бульвар, д. 11
c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Россия, 119333, г. Москва, ул. Вавилова, д. 44, корп. 2
d Московский государственный университет имени М. В. Ломоносова, Россия, 119991, г. Москва, Ленинские горы, д. 1, стр. 52
Список литературы:
Аннотация: В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.
Ключевые слова: MDP, выпуклая оптимизация, $Q$-обучение, линейное программирование, методы градиента политики.
Финансовая поддержка Номер гранта
Российский научный фонд 21-71-30005
Исследование выполнено за счет гранта Российского научного фонда (проект № 21-71-30005), https://rscf.ru/project/21-71-30005/.
Поступила в редакцию: 19.02.2023
Принята в печать: 23.02.2023
Тип публикации: Статья
УДК: 519.8
Образец цитирования: В. Д. Руденко, Н. Е. Юдин, А. А. Васин, “Обзор выпуклой оптимизации марковских процессов принятия решений”, Компьютерные исследования и моделирование, 15:2 (2023), 329–353
Цитирование в формате AMSBIB
\RBibitem{RudYudVas23}
\by В.~Д.~Руденко, Н.~Е.~Юдин, А.~А.~Васин
\paper Обзор выпуклой оптимизации марковских процессов принятия решений
\jour Компьютерные исследования и моделирование
\yr 2023
\vol 15
\issue 2
\pages 329--353
\mathnet{http://mi.mathnet.ru/crm1063}
\crossref{https://doi.org/10.20537/2076-7633-2023-15-2-329-353}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm1063
  • https://www.mathnet.ru/rus/crm/v15/i2/p329
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024