|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Оптимальное управление
TT-QI: ускоренная итерация функции ценности в формате тензорного поезда для задач стохастического оптимального управления
А. И. Бойкоa, И. В. Оселедецab, Г. Феррерa a 121205 Москва, Большой бульвар, 30, стр. 1, Сколковский институт науки и технологий, Россия
b 119333 Москва, ул. Губкина, 8, ИВМ РАН, Россия
Аннотация:
Рассматривается задача стохастического оптимального управления общего вида с малым винеровским шумом. Данная задача аппроксимируется с помощью марковского процесса принятия решений. Решение уравнения Беллмана на функцию ценности вычисляется с помощью метода итерации ценности (VI) в формате малорангового тензорного поезда (ТТ-VI). Предложена модификация данного алгоритма (ТТ-QI): нелинейный оператор Беллмана итеративно применяется сначала с использованием малоранговых алгебраических операций, а затем с использованием алгоритма крестовой аппроксимации. Показана более низкая, чем в основном методе, сложность на одну итерацию в случае малых ТТ-рангов тензоров вероятностей перехода. На примере задач управления обратным маятником и машинами Дубинса показано ускорение времени расчета оптимального регулятора в 3–10 раз по сравнению с существующим методом.
Библ. 13. Фиг. 6. Табл. 1.
Ключевые слова:
динамическое программирование, оптимальное управление, марковские процессы принятия решений, малоранговые разложения.
Поступила в редакцию: 24.11.2020 Исправленный вариант: 24.11.2020 Принята в печать: 14.01.2021
Образец цитирования:
А. И. Бойко, И. В. Оселедец, Г. Феррер, “TT-QI: ускоренная итерация функции ценности в формате тензорного поезда для задач стохастического оптимального управления”, Ж. вычисл. матем. и матем. физ., 61:5 (2021), 865–877; Comput. Math. Math. Phys., 61:5 (2021), 836–846
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/zvmmf11244 https://www.mathnet.ru/rus/zvmmf/v61/i5/p865
|
Статистика просмотров: |
Страница аннотации: | 81 |
|