|
Позиционные стратегии в игровой задаче управления нелокальным уравнением неразрывности
Е. А. Колпакова Институт математики и механики им. Н. Н. Красовского Уральского отделения РАН, г. Екатеринбург
Аннотация:
В статье рассматривается игровая задача управления нелокальным уравнением неразрывности в пространстве вероятностных мер. На всех агентов мультиагентной системы действует общее управление, зависящее от текущего момента времени и текущего распределения агентов, и общая помеха. На основе понятия $u$- и $v$-стабильности и метода экстремального сдига Н. Н. Красовского и А. И. Субботина построены субоптимальные стратегии игроков в пространстве вероятностных мер. Доказана теорема о существовании функции цены в классе позиционных стратегий и неупреждающих стратегий. Показано совпадение функций цены.
Библиография: 20 названий.
Ключевые слова:
позиционные управления, дифференциальная игра, нелокальное уравнение неразрывности, экстремальный сдвиг.
Поступило: 19.01.2023 Исправленный вариант: 04.05.2023
1. Введение Игровая задача управления нелокальным уравнением неразрывности появляется при исследовании задачи управления мультиагентной системой в случае, когда взаимодействие между агентами происходит через внешнюю среду, а на каждого агента действуют общие для всей системы управление и помеха. Такая постановка находит приложения при исследовании управляемой системы заряженных частиц (плазмы), распространении иммунитета при эпидемиях, управлении группами животных и пр. Впервые задачи управления уравнениями неразрывности, которые соответствуют случаю, когда на систему агентов воздействует одно общее управление, изучались в рамках задач управления с неточной информацией о начальном положении агентов [1], [2]. Изучение собственно задач управления уравнением неразрывности в предположении о нелокальной зависимости динамики каждого агента от распределения всех агентов началось с работ [3], [4]. В настоящей статье рассматривается игровая задача управления уравнением неразрывности на основе позиционного подхода, впервые предложенного в рамках теории конечномерных дифференциальных игр Красовским и Субботиным [5], [6]. Этот подход предполагает, что игроки знают текущее положение системы и формируют свое управление пошагово. Отметим, что в рамках теории дифференциальных игр также используется концепция, основанная на понятии квазистратегии – неупреждающего отображения, ставящего в соответствие управлению одного игрока управление другого игрока. Для конечномерной дифференциальной игры неупреждающие стратегии были введены в работах [7], [8]. В работе [9] доказана эквивалентность этих двух подходов, т.е. совпадение цен. Ранее задачи игрового управления уравнением неразрывности рассматривались в работе [10]. В этой статье для антагонистической дифференциальной игры с интегро-терминальным функционалом платы доказано существование функции цены в классе квазистратегий (неупреждающих стратегий) при дополнительных предположениях стационарности динамики, липшицевости и ограниченности верхней и нижней функции цены. Отметим, что авторы статьи [10] не предложили способ проверки этого предположения. Доказательство теоремы существования функции цены основано на технике, использующей теорию вязкостных решений уравнения Гамильтона–Якоби. В настоящей статье мы даем прямое доказательство существования функции цены, основанное на свойствах $u$- и $v$-стабильности. Кроме того, в работе не предполагаются липшицевость верхней и нижней функции цены. Показано существование функции цены не только в классе неупреждающих стратегий, но и в классе позиционных стратегий. А также доказано совпадение этих цен. В статье [10] доказан принцип динамического программирования для верхней и нижней функции цены с применением лифтинга. В настоящей работе приводится иное доказательство принципа динамического программирования, не использующее лифтинг. Для задач управления нелокальным уравнением неразрывности фазовым пространством является пространство вероятностных мер. Поэтому задачи управления нелокальным уравнением неразрывности близки к задачам управления средним полем [11], [12], где также разрабатывался позиционный подход [13]. Разница между задачами управления уравнением неразрывности и управления средним полем состоит в способе выбора управления. Как отмечалось ранее, в задачах управления уравнением неразрывности на всех агентов действует общее управление, в то время как в рамках теории управления средним полем управление агентами выбирается индивидуально. Статья организована следующим образом. В п. 2 представлена постановка задачи, предположения и основные определения. В п. 3 сформулирована основная теорема о конструкциях субоптимальных стратегий. В п. 4 описаны стратегии на основе экстремального сдвига Красовского–Субботина. В п. 5 доказана теорема о существовании функции цены.
2. Постановка задачи Мы рассматриваем управляемую систему, состоящую из бесконечного числа однотипных агентов. Динамика каждого агента задается дифференциальным уравнением
$$
\begin{equation}
\dot{x}(t)=f\bigl(t,x(t),m(t),u(t,m(t)), v(t,m(t))\bigr), \qquad x(s)=x_*, \quad m(s)=m_*.
\end{equation}
\tag{2.1}
$$
Здесь $t\in[0,T]$, $T$ – конечный момент времени, $x\in \mathbb{T}^d$, распределение всех агентов $m(t)\in\mathcal{P}^2(\mathbb{T}^d)$, управление первого игрока $u(t,m(t))\in U$, управление второго игрока $v(t,m(t))\in V$, $U,V$ – метрические компакты, $s\in[0,T]$. Символ $\mathbb{T}^d$ обозначает $d$-мерный тор $\mathbb{T}^d\triangleq \mathbb{R}^d/\mathbb{Z}^d$. Это означает, что элемент $x\in \mathbb{T}^d$ является классом эквивалентности
$$
\begin{equation*}
[x']=\bigl\{ y'\in \mathbb{R}^d\colon x'\sim y' \Leftrightarrow x'-y'\in \mathbb{Z}^d\bigr\}.
\end{equation*}
\notag
$$
Функция $\rho(x,y)\colon \mathbb{T}^d \times \mathbb{T}^d\to \mathbb{R}$, определенная по правилу
$$
\begin{equation*}
\rho(x,y)=\|x-y\|=\min\bigl\{\|x'-y'\|\colon x'\in x, \, y'\in y\bigr\},
\end{equation*}
\notag
$$
является метрикой на $\mathbb{T}^d$. Символ $\mathcal{P}^2(\mathbb{T}^d)$ обозначает множество вероятностей на $\mathbb{T}^d$. На этом пространстве вводится вторая метрика Канторовича $W_2$ (называемая в иностранной литературе метрикой Вассерштейна) [14], которая задается по правилу
$$
\begin{equation*}
W_2(m_1,m_2)=\inf_{\pi\in \Pi(m_1,m_2)}\biggl(\int_{\mathbb{T}^d\times\mathbb{T}^d} \rho(x,y)^2\,\pi(d(x,y))\biggr)^{1/2}.
\end{equation*}
\notag
$$
Здесь $\Pi(m_1,m_2)$ – множество вероятностей $\pi\in\mathcal{P}^2(\mathbb{T}^d\times\mathbb{T}^d) $ таких, что для любого измеримого множества $\Gamma \subset \mathbb{T}^d$
$$
\begin{equation*}
\pi (\Gamma \times \mathbb{T}^d) = m_1(\Gamma), \qquad \pi(\mathbb{T}^d \times \Gamma) = m_2(\Gamma).
\end{equation*}
\notag
$$
Интегрируя уравнение (2.1) по мере $m(t)$, получим уравнение относительно $m(t)$, которое называется уравнением неразрывности. Таким образом, динамика всей системы описывается уравнением
$$
\begin{equation}
\frac{\partial m(t)}{\partial t}+\mathrm{div}\bigl( f(t,\cdot,m(t),u(t,m(t))),v(t,m(t))\bigr)=0, \qquad m(s)=m_*.
\end{equation}
\tag{2.2}
$$
Здесь $\cdot$ обозначает переменную $x$, по которой берется $\mathrm{div}$. Определение 1. Мера $m\colon [0,T]\,{\to}\, \mathcal{P}^2(\mathbb{T}^d)$ называется решением уравнения (2.2), если она удовлетворяет уравнению (2.2) в смысле распределений, т.е. для любого $\varphi\in C_{\mathrm c}^\infty((0,T);\mathbb{T}^d )$
$$
\begin{equation*}
\int_{0}^T\int_{\mathbb{T}^d} \biggl(\frac{\partial \varphi}{\partial t}(t,x)+\bigl\langle \nabla \varphi(t,x),f(t,x,m(t), u(t,m(t)), v(t,m(t))\bigr\rangle\biggr)\,m(t,dx)\,dt=0.
\end{equation*}
\notag
$$
Здесь и ниже символ $\langle \,\cdot\,{,}\,\cdot\,\rangle$ обозначает скалярное произведение в $\mathbb{R}^d$. Мы предполагаем, что все агенты управляются одним и тем же управлением $u$, зависящим только от текущего момента времени и распределения агентов $m(t)$, и, кроме того, на всех агентов действует помеха $v$. Управления $u$ и $v$ выбираются таким образом, чтобы первый игрок минимизировал, а второй игрок максимизировал функционал платы
$$
\begin{equation}
g(m(T;s,m_*,u,v)),
\end{equation}
\tag{2.3}
$$
где $m(\cdot;s,m_*,u,v) $ – движение управляемой системы (2.2), стартующее из начального положения $(s,m_*)$ под управлениями $u, v$. Предполагаются выполненными следующие условия. Условие A1. Функция $f$ непрерывна по всем координатам. Условие A2. Функция $g$ непрерывна. Условие A3. Существует константа $L>0$ такая, что для любых $t \in [0,T]$, $x,x'\in \mathbb{T}^d$, $m,m'\in \mathcal{P}^2(\mathbb{T}^d)$, $u\in U$, $v\in V$ справедливы неравенства
$$
\begin{equation*}
\bigl\|f(t,x,m,u,v)-f(t,x',m',u,v)\bigr\|\leqslant L \bigl(\|x-x'\|+W_2(m,m')\bigr).
\end{equation*}
\notag
$$
Условие A4. Выполнено условие седловой точки в маленькой игре, т.е. для любых $t\in[0,T]$, $m\in \mathcal{P}^2(\mathbb{T}^d)$, $p\in L^2(\mathbb{T}^d,m;\mathbb{R}^d)$
$$
\begin{equation*}
\min_{u\in U}\max_{v\in V}\int_{\mathbb{T}^d}\bigl\langle p(x), f(t,x,m,u,v)\bigr\rangle \,m(dx) =\max_{v\in V} \min_{u\in U} \int_{\mathbb{T}^d}\bigl\langle p(x), f(t,x,m,u,v)\bigr\rangle \,m(dx).
\end{equation*}
\notag
$$
Здесь $L^2(\mathbb{T}^d,m;\mathbb{R}^d)$ обозначает множество функций из $\mathbb{T}^d$ в $\mathbb{R}^d$, интегрируемых с квадратом относительно меры $m$. Из условий A1, A3, компактности $U$, $V$ и компактности тора $\mathbb{T}^d$ следует, что существует константа $C_0$ такая, что для любого $t\in[0,T]$, $x\in \mathbb{T}^d$, $m(t)\in \mathcal{P}^2(\mathbb{T}^d)$, $u\in U$, $v\in V$ справедливо неравенство
$$
\begin{equation*}
\|f(t,x,m,u,v)\|\leqslant C_0.
\end{equation*}
\notag
$$
Из условий A1, A2 следует, что существуют положительные неубывающие функции $w_g$ и $w_f$ такие, что $w_g(\varepsilon)\to0$, $w_f(\varepsilon)\to0$ при $\varepsilon\to 0$ и
$$
\begin{equation*}
|g(m)-g(m')|\leqslant w_g(W_2(m,m')), \qquad m,m'\in \mathcal{P}^2(\mathbb{T}^d),
\end{equation*}
\notag
$$
для любых $t, t'\in [0,T]$, $x\in \mathbb{T}^d$, $m\in \mathcal{P}^2(\mathbb{T}^d)$, $u\in U$, $v\in V$ выполнено
$$
\begin{equation}
\|f(t,x,m,u,v)-f(t',x,m,u,v)\|\leqslant w_f(t-t').
\end{equation}
\tag{2.4}
$$
Далее мы будем использовать следующие обозначения. Символ $\mathcal{P}(U)$ (соответственно $\mathcal{P}(V)$) обозначает множество вероятностных мер на $U$ (соответственно на $V$). Далее мы будем рассматривать $\mathcal{P}(U)$ (соответственно $\mathcal{P}(V)$) как множество мерозначных управлений первого (соответственно второго) игроков [15]. Пусть $(X,\rho_X)$, $(Y,\rho_Y)$ – сепарабельные метрические пространства со свойством Радона. Символом $C_{\mathrm b}(X\times Y)$ обозначим пространство непрерывных и ограниченных функций на $(X\times Y)$ со значениями в $\mathbb{R}$. Функция $b\colon X\to \mathcal{P}(Y)$ называется слабо измеримой, если для произвольной функции $\varphi\in C_{\mathrm b}(X\times Y)$ функция
$$
\begin{equation*}
x\mapsto \int_{Y} \varphi(x,y)\,b(x,dy)
\end{equation*}
\notag
$$
измерима. Пусть $m$ – мера на $X$. Обозначим $\Lambda(X,m,Y)$ множество мер на $X\times Y$ с маргиналом на $X$ равным $m$, т.е. мер $\alpha$ на $X\times Y$, удовлетворяющих следующему свойству: для любого измеримого множества
$$
\begin{equation*}
\Gamma\subset X \qquad \alpha(\Gamma\times Y)=m(\Gamma).
\end{equation*}
\notag
$$
По теореме о дезинтегрировании для заданной меры $\alpha \in \Lambda(X,m,Y)$ существует слабо измеримое семейство вероятностей $ \alpha(\cdot|x)\in \mathcal{P}(Y)$ такое, что для любой функции $\varphi\in C_{\mathrm b}(X\times Y)$
$$
\begin{equation}
\int_{X\times Y} \varphi(x,y)\,\alpha(d(x,y))= \int_{X}\int_{Y}\varphi(x,y)\,\alpha(dy|x)\,m(dx).
\end{equation}
\tag{2.5}
$$
Это семейство единственно почти всюду, т.е. если $\alpha'(dy|x)$, $\alpha''(dy|x)$ удовлетворяют (2.5), тогда $\alpha'(\cdot|x)=\alpha''(\cdot|x)$ для почти всех $x\in X$. Обратно, слабо измеримое семейство вероятностей $\alpha(dy|x)$ задает единственную меру $\alpha\in \Lambda(X,m,Y)$ по правилу (2.5). Таким образом мера $\alpha\in \Lambda(X,m,Y)$ отождествляется с классом эквивалентности, содержащим семейство вероятностей $\alpha(dy|x)$, удовлетворяющих условию (2.5). На множестве $\Lambda(X,m,Y)$ рассмотрим топологию слабой сходимости. Напомним, что последовательность $\alpha_i$ слабо сходится к $\alpha$, $i\to \infty$ тогда и только тогда, когда
$$
\begin{equation}
\forall\,\varphi\in C_{\mathrm b}(X\times Y) \qquad \int_{X\times Y}\varphi(x,y)\,\alpha_i(dx\,dy) \to \int_{X\times Y}\varphi(x,y)\,\alpha(dx\,dy), \quad i\to \infty.
\end{equation}
\tag{2.6}
$$
Если $X$, $Y$ – компакты, то $\Lambda(X,m,Y)$ – компакт по теореме Прохорова [16]. Пусть $\xi\in \mathcal{P}(X) $, $\zeta\in \mathcal{P}(Y)$, тогда $\xi\zeta$ – вероятность на $X\times Y$, определенная по следующему правилу:
$$
\begin{equation*}
\forall\,\varphi\in C_{\mathrm b}(X\times Y) \qquad \int_{X\times Y}\varphi(x,y)(\xi\zeta)\,d(x,y)=\int_X\int_Y \varphi(x,y)\,\xi(dx)\,\zeta(dy).
\end{equation*}
\notag
$$
Определим вероятность $\xi\cdot\zeta\in\mathcal{P}([0,T]\times X\times Y) $ по следующему правилу: для любой $\varphi\in C([0,T]\times X\times Y) $
$$
\begin{equation*}
\int_{[0,T]\times X\times Y}\varphi(t,x,y)(\xi\cdot\zeta)\,(dt\,dx\,dy) =\int_0^T\int_X\int_Y \varphi(t,x,y) \,\xi(dx|t)\,\zeta(dy|t)\,dt.
\end{equation*}
\notag
$$
Пусть множества $\widetilde{U}=\Lambda([0,T],\lambda,U)$ и $\widetilde{V}=\Lambda([0,T],\lambda,V)$, $\lambda$ – мера Лебега, являются множествами обобщенных управлений первого и второго игроков соответственно. Обозначим символом $U^0$ ($V^0$) множество измеримых функций из $[0,T]$ в $U$ ($V$). Отметим, что множества измеримых управлений вкладываются в множество обобщенных управлений следующим образом:
$$
\begin{equation*}
\text{если}\quad u\colon [0,T]\to U, \qquad\text{то положим}\quad \alpha_{u(\cdot)} (\cdot|t)=\delta_{u(t)}.
\end{equation*}
\notag
$$
Здесь и далее $\delta_x$ обозначает меру Дирака, сконцентрированную в точке $x$. Аналогичным образом строится вложение $V^0$ в $\widetilde{V}$. В дальнейшем без ограничения общности будем считать, что
$$
\begin{equation*}
U^0\subset \widetilde{U}, \qquad V^0\subset \widetilde{V}.
\end{equation*}
\notag
$$
Обозначим символом $W$ – множество совместных обобщенных управлений обоих игроков на $[0,T]$, т.е. $W=\Lambda([0,T],\lambda,U\times V)$. Применяя определение (2.6), будем предполагать, что $\widetilde{U}\times \widetilde{V} \subset W$. Пусть $M$ – множество непрерывных функций из $[0,T]$ в $\mathcal{P}^2(\mathbb{T}^d)$. Для $s\in[0,T]$, $x_*\in \mathbb{T}^d$, $m(\cdot)\in M$, $\xi\in \widetilde{U}$, $\zeta\in\widetilde{V}$ обозначим $x(\cdot, s,x_*, m(\cdot), \xi,\zeta)$ решение начальной задачи
$$
\begin{equation}
\frac{d x(t)}{dt}=\int_{U} \int_{V}f\bigl(t,x(t),m(t),u,v\bigr) \,\xi(du(t))\,\zeta(dv(t)), \qquad x(s)=x_*.
\end{equation}
\tag{2.7}
$$
Функция $x(\cdot, s,x_*,m(\cdot),\xi,\zeta)$ описывает движение произвольного агента под действием обобщенных управлений $\xi$, $\zeta$. Для дальнейшего изложения результатов покажем связь решения задачи (2.7) на торе с решением задачи в $\mathbb{R}^d$. Если $t\in[0,T]$, $m\in \mathcal{P}^2(\mathbb{T}^d)$, $u\in U$, $v\in V$, $x\in\mathbb{R}^d $, $x'\in \mathbb{T}^d$, то обозначим
$$
\begin{equation*}
\widetilde{f}(t,x',m,u,v)=f(t,[x'],m,u,v).
\end{equation*}
\notag
$$
Рассмотрим задачу
$$
\begin{equation}
\frac{d \widetilde{x}(t)}{dt}=\int_{U} \int_{V}\widetilde{f}\bigl(t,x(t),m(t),u,v\bigr) \,\xi(du(t))\,\zeta(dv(t)), \qquad \widetilde{x}(s)=y'\in \mathbb{R}^d.
\end{equation}
\tag{2.8}
$$
Обозначим символом $\widetilde{x}(\cdot)$ решение задачи (2.8). Определение 2. Будем говорить, что $\widetilde{x}(\cdot)$ – представление решения $x(\cdot)$ задачи (2.7), если $x(s)=y=[y']$ и $x(t)=[\widetilde{x}(t)]$, где $\widetilde{x}(\cdot)$ – решение задачи (2.8), $\widetilde{x}(s)=y'\in \mathbb{R}^d$. Рассмотрим оператор $l$ из $\mathbb{T}^d\times\mathbb{T}^d$ в $\mathbb{T}^d$, определенный по правилу
$$
\begin{equation*}
l(x,y)\in x-y, \qquad \|l(x,y)\|=\|x-y\|.
\end{equation*}
\notag
$$
Замечание 1. Решение $x(\cdot)$ задачи (2.7) не зависит от выбора представителя $y$ в начальных условиях. Действительно, пусть $y',y''\in y$. Рассмотрим решения задачи (2.7) с начальным условием $x_1(s)=y'$ и $x_2(s)=y''$. Тогда $l(x_1(s), x_2(s))=l(y',y'')= 0$. Заметим, что для любого $t\in [s,T]$
$$
\begin{equation*}
\begin{aligned} \, x_1(t) &=\int_{[s,t]\times W} f\bigl(\tau,x_1(\tau),m(\tau),u,v\bigr)\,\varkappa(d(\tau,u,v))+y', \\ x_2(t) &=\int_{[s,t]\times W}f\bigl(\tau,x_2(\tau),m(\tau),u,v\bigr)\,\varkappa(d(\tau,u,v))+y''. \end{aligned}
\end{equation*}
\notag
$$
Отсюда
$$
\begin{equation*}
\begin{aligned} \, &\|l(x_1(t),x_2(t))\| =\biggl\|\int_{[s,t]\times W}\!\!f\bigl(\tau,x_1(\tau),m(\tau),u,v\bigr) -f\bigl(\tau,x_2(\tau),m(\tau),u,v\bigr)\,\varkappa(d(\tau,u,v))\biggr\| \\ &\qquad \leqslant\int_{[s,t]\times W} L\bigl\|l(x_1(\tau),x_2(\tau))\bigr\|\,\varkappa(d(\tau,u,v)). \end{aligned}
\end{equation*}
\notag
$$
Из леммы Гронуолла следует, что
$$
\begin{equation*}
\|l(x_1(t),x_2(t))\|\leqslant\|l(x_1(s), x_2(s))\|e^{L(t-s)}=0.
\end{equation*}
\notag
$$
Следовательно, решения $x_1$ и $x_2$ задачи (2.7) совпадают. Пусть $(\Omega',\mathbb{F'})$, $(\Omega'',\mathbb{F''})$ – множества с заданными на них $\sigma$-алгебрами подмножеств, $m$ – мера на $\mathbb{F'}$ и $h\colon \Omega'\to \Omega'' $ – измеримая функция. Обозначим $h\sharp m$ образ меры $m$ при действии функции $h$ [14], если $\Gamma\in\mathbb{F''}$, то
$$
\begin{equation*}
(h\sharp m)(\Gamma)=(m(h^{-1}))(\Gamma).
\end{equation*}
\notag
$$
Определение 3. Пусть $s\in[0,T]$, $m_*\in \mathcal{P}^2( \mathbb{T}^d)$, $\xi\in \widetilde{U}$, $\zeta\in \widetilde{V}$. Будем называть $m(\cdot)=m(\cdot, s,m_*,\xi,\zeta)\in M$ потоком вероятностей, порожденным обобщенными управлениями $\xi$, $\zeta$, если существует мера $\chi$, которая сконцентрирована на множестве $C_0$-липшицевых функций из $[0,T]$ в $\mathbb{T}^d$ такая, что Отметим, что данное определение эквивалентно определению 1 [17].
3. Основной результат Мы следуем подходу, предложенному Красовским и Субботиным [5], [6], и вместо исходной дифференциальной игры рассматриваем верхнюю и нижнюю дифференциальные игры. В верхней игре первый игрок применяет позиционную стратегию на каждом шаге, а второй игрок использует произвольное управление. В нижней игре игроки меняются местами. Если цены верхней и нижней игры совпадают, то говорят, что в исходной игре существует цена. Стратегия первого игрока – это функция $\overline{u}\colon [0,T]\times\mathcal{P}^2(\mathbb{T}^d)\to U$. Аналогичным образом определяется стратегия второго игрока $\overline{v}\colon [0,T]\times\mathcal{P}^2(\mathbb{T}^d)\to V$. Рассмотрим верхнюю игру. Пусть $\overline{u}$ – стратегия первого игрока, начальный момент $t_0\in[0,T]$, начальное распределение игроков $m_0\in \mathcal{P}^2(\mathbb{T}^d)$, $\Delta=\{t_i\}_{i=0}^N$ – разбиение отрезка $[t_0,T]$. Определение 4. Будем говорить, что поток вероятностей $m(\cdot)\colon [s,T]\to \mathcal{P}^2(\mathbb{T}^d) $ порожден $s$, $m_*$, $\overline{u}$ и $\Delta$, если $m(s)=m_*$ и для управлений $u_i=\overline{u}[t_i,m(t_i)]\in U$ и некоторых управлений $v_i\in V^0$, $ i=0,\dots,N-1$, выполнено равенство при $t\in[t_i,t_{i+1}]$, $ i=0,\dots,N-1$,
$$
\begin{equation*}
m(t)=m\bigl(t, t_i, m(t_i),u_i, v_i\bigr).
\end{equation*}
\notag
$$
Обозначим множество потоков вероятностей $m$, порожденных $s$, $m_*$, $ \overline{u}$ и $\Delta$, при всех возможных управлениях $v$ второго игрока символом $X_1(s,m_*, \overline{u},\Delta)$. Если первый игрок применяет стратегию $\overline{u}$ и корректирует ее в моменты разбиения $\Delta$, то его выигрыш определяется следующим образом:
$$
\begin{equation*}
J_1(s,m_*, \overline{u},\Delta)=\sup\bigl\{g(m(T))\colon m(\cdot)\in X_1(s,m_*, \overline{u},\Delta)\bigr\}.
\end{equation*}
\notag
$$
Аналогично введем множество потоков вероятностей для второго игрока и обозначим его символом $X_2(s,m_*, \overline{v},\Delta)$. Если второй игрок выбирает стратегию $\overline{v}$ и корректирует ее в моменты разбиения $\Delta$, то его выигрыш равен
$$
\begin{equation*}
J_2(s,m_*, \overline{v},\Delta)=\inf\bigl\{g(m(T))\colon m(\cdot)\in X_2(s,m_*, \overline{v},\Delta)\bigr\}.
\end{equation*}
\notag
$$
Верхняя цена игры в точке $(s,m_*)$ равна
$$
\begin{equation*}
\Gamma_1(s,m_*)=\inf_{\overline{u}, \Delta}J_1(s,m_*, \overline{u},\Delta),
\end{equation*}
\notag
$$
нижняя цена игры имеет вид
$$
\begin{equation*}
\Gamma_2(s,m_*)=\sup_{\overline{v}, \Delta}J_2(s,m_*, \overline{v},\Delta).
\end{equation*}
\notag
$$
Очевидно, что $\Gamma_1\geqslant \Gamma_2$. Если $\Gamma_1= \Gamma_2$, то в дифференциальной игре существует цена. Для дальнейшего описания результатов опишем множество программных стратегий первого игрока на отрезке времени $[s,T]$ $\xi(\cdot)\colon [s,T]\to \mathcal{P}(U)$ и обозначим его $U_{[s,T]}$. Аналогично множество программных стратегий второго игрока $\eta(\cdot)\colon [s,T]\to \mathcal{P}(V)$ обозначим $V_{[s,T]}$. Определение 5. Неупреждающая стратегия (квазистратегия) первого игрока – это отображение $\alpha\colon V_{[s,\tau]}\to U_{[s,\tau]} $, удовлетворяющее следующему условию:
$$
\begin{equation*}
\text{если}\quad \eta_1=\eta_2 \quad\text{п.в. на}\ \ [s,\tau], \qquad\text{то}\quad \alpha[\eta_1]=\alpha[\eta_2] \quad\text{п.в. на}\ \ [s,\tau] \quad\text{для всех}\ \ \tau.
\end{equation*}
\notag
$$
Множество неупреждающих стратегий первого игрока на $[s,\tau]$ обозначим $\overline{A}_{[s,\tau]}$. Аналогично множество неупреждающих стратегий второго игрока на $[s,\tau]$ обозначим $\overline{B}_{[s,\tau]}$. Определим
$$
\begin{equation*}
\mathrm{Val}^+(s,m_*)=\inf_{\alpha\in \overline{A}_{[s,T]}}\sup_{\eta\in V_{[s,T]} } g\bigl(m(T,s,m_*,\alpha[\eta],\eta)\bigr),
\end{equation*}
\notag
$$
где $m(\cdot,s,m_*,\alpha[\eta],\eta)$ – поток вероятностей, порожденный $s$, $m_*$ и управлениями $ \alpha[\eta](t)$, $\eta(t)$. Определим
$$
\begin{equation*}
\mathrm{Val}^-(s,m_*)=\sup_{\beta\in \overline{B}_{[s,T]} }\inf_{\xi\in U_{[s,T]}} g\bigl(m(T,s,m_*,\xi,\beta[\xi])\bigr),
\end{equation*}
\notag
$$
где $m(\cdot, s,m_*, \xi(t),\beta[\xi](t))$ – поток вероятностей, порожденный $s$, $m_*$ и управлениями $ \xi(t)$, $\beta[\xi](t)$. Теорема 1. Если выполнены условия A1–A4, то в задаче (2.1), (2.3)
$$
\begin{equation*}
\Gamma_1(s,m_*)=\Gamma_2(s,m_*) =\mathrm{Val}^+(s,m_*)=\mathrm{Val}^-(s,m_*) \qquad\forall\,s\in[0,T], \quad m_*\in \mathcal{P}^2(\mathbb{T}^d).
\end{equation*}
\notag
$$
Эта теорема доказана в п. 5.
4. Экстремальный сдвиг Пусть $\Pi^0(m^*,\nu^*)$ – множество оптимальных планов между мерами $m^*,\nu^*$, $\pi\in \Pi^0(m^*,\nu^*)$. Тогда для любых $s\in[0,T],$ $m\in\mathcal{P}^2(\mathbb{T}^d) $ определим
$$
\begin{equation}
\widehat{u}(s,m) \in\operatorname*{arg\,min}_{u\in U}\max_{v\in V}\int_{\mathbb{T}^d\times\mathbb{T}^d} \bigl\langle l(x',y'),f(s,x,m,u,v)\bigr\rangle\, \pi(dx\,dy),
\end{equation}
\tag{4.1}
$$
$$
\begin{equation}
\widehat{v}(s,m) \in\operatorname*{arg\,max}_{v\in V}\min_{u\in U}\int_{\mathbb{T}^d\times\mathbb{T}^d} \bigl\langle l(x',y'),f(s,x,m,u,v)\bigr\rangle\,\pi(dx\,dy).
\end{equation}
\tag{4.2}
$$
Здесь $x'\in x$, $y'\in y$. Мы можем выбрать функции $\widehat{u}$, $\widehat{v}$ измеримыми, так как $f$ непрерывна и $U$, $V$ – метрические компакты. Обозначим символом $M^R$ множество потоков вероятностей, удовлетворяющих условию
$$
\begin{equation*}
\exists\, R>0\colon\quad W_2(m(t_1),m(t_2))\leqslant R|t_1-t_2| \quad \forall\, t_1, t_2\in[0,T].
\end{equation*}
\notag
$$
Рассмотрим функцию
$$
\begin{equation}
\widetilde{\rho}(\varepsilon,t)=\bigl(\varepsilon+\bigl(4C_0^2\varepsilon +4\sqrt{d}(w_f(\varepsilon) +L(C_0+R)\varepsilon)\bigr)t\bigr)e^{4Lt}
\end{equation}
\tag{4.3}
$$
со свойством $\lim_{\varepsilon\to 0}\widetilde{\rho}(\varepsilon,t)= 0 $. Пусть $s\in[0,T],$ $ m,\nu\in \mathcal{P}^2(\mathbb{T}^d)$. Можно найти меру $\nu$ такую, что
$$
\begin{equation}
(W_2(m,\nu))^2\leqslant\widetilde{\rho}(\varepsilon,s),
\end{equation}
\tag{4.4}
$$
$$
\begin{equation}
\psi_1(s,\nu)=\min\bigl\{\psi_1(s,m')\colon m'\in \mathcal{P}^2(\mathbb{T}^d), \, (W_2(m,m'))^2\leqslant \widetilde{\rho}(\varepsilon,s)\bigr\}.
\end{equation}
\tag{4.5}
$$
Здесь $\psi_1$ – $u$-стабильная функция, $\widetilde{\rho}$ определяется формулой (4.3). Отметим, что множество
$$
\begin{equation*}
\bigl\{m'\in \mathcal{P}^2(\mathbb{T}^d)\colon (W_2(\nu,m'))^2\leqslant \widetilde{\rho}(\varepsilon,s)\bigr\}
\end{equation*}
\notag
$$
является компактом в пространстве $\mathcal{P}^2(\mathbb{T}^d)$ согласно [18; теорема 5.11]. Лемма 1. Предположим, что $s,r\in[0,T]$, $s\leqslant r$, $m_*,\nu_* \in \mathcal{P}^2(\mathbb{T}^d)$, $\pi$ – оптимальный транспортный план между $m_*$, $\nu_*$. Пусть $\widehat{u}$, $\widehat{v}$ – позиционные стратегии, удовлетворяющие (4.1), (4.2), и $\widehat{u}^*=\widehat{u}[t,m]$, $\widehat{v}^*=\widehat{v}[t,m]$, $\xi\in \widetilde{U}$, $\eta\in \widetilde{V}$ – обобщенные управления первого и второго игроков соответственно, $m(\cdot)=m(\cdot, s,m_*,\widehat{u}^*, \eta)$, $\nu(\cdot)=\nu(\cdot,s,\nu_*,\xi, \widehat{v}^*)$. Тогда
$$
\begin{equation*}
\begin{aligned} \, W_2^2(m(r),\nu(r)) &\leqslant W_2^2(m_*,\nu_*)(1+4L(r-s))+4C_0^2(r-s)^2 \\ &\qquad +2\Bigl(2\sqrt{d}w_f(r-s)(r-s)+4\sqrt{d}LC_0(r-s)^2\Bigr) \end{aligned}
\end{equation*}
\notag
$$
Доказательство леммы идейно следует доказательствам леммы 1 и леммы 2 в работе [19]. Выберем $x_*'\in x_*$ и $y_*'\in y_*$ такие, что
$$
\begin{equation*}
\|x_*'-y_*'\|=\|x_*-y_*\|=\sqrt{d}.
\end{equation*}
\notag
$$
Обозначим
$$
\begin{equation*}
\widetilde{x}(t)=\widetilde{x}(t,s,x_*',m(\cdot),\widehat{u}^*,\eta), \qquad \widetilde{y}(t)=\widetilde{x}(t,s,y_*',\nu(\cdot),\xi,\widehat{v}^*).
\end{equation*}
\notag
$$
Из оценки (2.4) следует, что
$$
\begin{equation*}
\bigl\|\widetilde{x}(t,s,x_*',m(\cdot),\widehat{u}^*,\eta)-x_*'\bigr\|\leqslant C_0(t-s),
\end{equation*}
\notag
$$
аналогичное неравенство справедливо для $\widetilde{y}(t)$. Тогда
$$
\begin{equation*}
\begin{aligned} \, &\|x(r)-y(r)\|^2 \leqslant\|\widetilde{x}(r)-\widetilde{y}(r)\|^2 \\ &\qquad\leqslant \|\widetilde{x}(r)-x_*'\|^2+ \|\widetilde{y}(r)-y_*'\|^2+\|x_*'-y_*'\|^2-2\bigl\langle\widetilde{x}(r)- x_*' ,\,\widetilde{y}(r)-y_*'\bigr\rangle \\ &\qquad\qquad +2\bigl\langle x_*' -y_*',\,\widetilde{x}(r)-x_*'\bigr\rangle -2\bigl\langle x_*' -y_*',\,\widetilde{y}(r)-y_*'\bigr\rangle \\ &\qquad \leqslant\|x_*'-y_*'\|^2+4C_0^2(r-s)^2+2\bigl\langle x_*' -y_*',\,\widetilde{x}(r)-x_*'\bigr\rangle -2\bigl\langle x_*' -y_*',\,\widetilde{y}(r)-y_*'\bigr\rangle. \end{aligned}
\end{equation*}
\notag
$$
Оценим
$$
\begin{equation*}
\begin{aligned} \, & \bigl\langle x_*' -y_*',\,\widetilde{x}(r)-x_*'\bigr\rangle -\bigl\langle x_*' -y_*',\,\widetilde{y}(r)-y_*'\bigr\rangle \\ &\qquad= \biggl\langle x_*' -y_*', \int_s^r \int_V \widetilde{f}\bigl(t,\widetilde{x}(t),m(t),\widehat{u}^*,v\bigr) \,\eta(t,dv)\,dt\biggr\rangle \\ &\qquad\qquad -\biggl\langle x_*' -y_*',\int_s^r\int_U \widetilde{f}\bigl(t,\widetilde{y}(t),\nu(t),u,\widehat{v}^*\bigr)\,\xi(t,du)\, dt\biggr\rangle \\ &\qquad = \int_s^r \int_V \bigl\langle x_*'-y_*',\,\widetilde{f}(s,x_*,m_*,\widehat{u}^*,v) \bigr\rangle\,\eta(t,dv)\,dt \\ &\qquad\qquad -\int_s^r \int_U \bigl\langle x_*'-y_*',\,\widetilde{f}(s,y_*,\nu_*,u,\widehat{v}^*)\bigr\rangle\,\xi(t,du)\,dt \\ &\qquad\qquad +\int_s^r\int_V \bigl\langle x_*'-y_*',\,\widetilde{f}(t,\widetilde{x}(t),m(t), \widehat{u}^*,v)-\widetilde{f}(s,\widetilde{x}(t),m(t),\widehat{u}^*,v) \bigr\rangle\,\eta(t,dv)\,dt \\ &\qquad\qquad +\int_s^r \int_V \bigl\langle x_*'-y_*',\,\widetilde{f}(s,\widetilde{x}(t),m(t),\widehat{u}^*,v) - \widetilde{f}(s,x_*,m_*,\widehat{u}^*,v)\bigr\rangle\,\eta(t,dv)\,dt \\ &\qquad\qquad -\int_s^r \int_U \bigl\langle x_*'-y_*',\,\widetilde{f}(t,\widetilde{y}(t),\nu(t),u, \widehat{v}^*)-\widetilde{f}(s,\widetilde{y}(t),\nu(t),u,\widehat{v}^*) \bigr\rangle \,\xi(t,du)\,dt \\ &\qquad\qquad -\int_s^r \int_U \bigl\langle x_*'-y_*',\,\widetilde{f}(s,\widetilde{y}(t),\nu(t),u,\widehat{v}^*)- \widetilde{f}(s,y_*,\nu_*,u,\widehat{v}^*)\bigr\rangle\, \xi(t,du)\,dt \\ &\qquad \leqslant \int_s^r \int_V \bigl\langle x_*'-y_*',\,\widetilde{f}(s,x_*,m_*,\widehat{u}^*,v) \bigr\rangle \,\eta(t,dv) \,dt \\ &\qquad\qquad -\int_s^r \int_U \bigl\langle x_*'-y_*',\,\widetilde{f}(s,y_*,\nu_*,u,\widehat{v}^*)\bigr\rangle \,\xi(t,du)\,dt \\ &\qquad\qquad +2\sqrt{d}w_f(r-s)(r-s)+4\sqrt{d}LC_0(r-s)^2. \end{aligned}
\end{equation*}
\notag
$$
Справедливы следующие неравенства:
$$
\begin{equation*}
\begin{aligned} \, &\int_s^r \int_V \bigl\langle x_*'-y_*',\,f(s,x_*,m_*,\widehat{u}^*,v) \bigr\rangle \,\eta(t,dv)\,dt \\ &\qquad\qquad - \int_s^r \int_U \bigl\langle x_*'-y_*',\,f(s,y_*,\nu_*,u,\widehat{v}^*)\bigr\rangle \,\xi(t,du)\,dt \\ &\qquad \leqslant \int_s^r\biggl\langle x_*'-y_*',\,\int_V f(s,x_*,m_*,\widehat{u}^*,v)\,\eta(t,dv)\biggr\rangle\,dt \\ &\qquad\qquad -\int_s^r\biggl\langle x_*'-y_*',\, \int_U f(s,x_*,m_*,u,\widehat{v}^*)\,\xi(t,du)\biggr\rangle\,dt \\ &\qquad\qquad +\int_s^r\int_U \bigl\langle x_*'-y_*',\,f(s,x_*,m_*,u,\widehat{v}^*)-f(s,y_*,\nu_*,u,\widehat{v}^*) \bigr\rangle\,\xi(t,du)\,dt \\ &\qquad \leqslant\int_s^r\biggl\langle x_*'-y_*',\,\int_V f(s,x_*,m_*,\widehat{u}^*,v)\,\eta(t,dv)\biggr\rangle\, dt \\ &\qquad\qquad -\int_s^r \biggl\langle x_*'-y_*',\, \int_U f(s,x_*,m_*,u,\widehat{v}^*)\,\xi(t,du)\biggr\rangle\, dt \\ &\qquad\qquad +(r-s)\biggl(\frac 32L\|x_*-y_*\|^2+\frac 12LW_2^2(m_*,\nu_*)\biggr). \end{aligned}
\end{equation*}
\notag
$$
Отсюда следует, что
$$
\begin{equation}
\begin{aligned} \, \notag \|x(r)-y(r)\|^2 &\leqslant \|x_*-y_*\|^2\bigl(1+3L(r-s)\bigr)+LW_2^2(m_*,\nu_*)(r-s)+ 4C_0^2(r-s)^2 \\ \notag &\qquad +2\Bigl(2\sqrt{d}w_f(r-s)(r-s)+4\sqrt{d}LC_0(r-s)^2\Bigr) \\ \notag &\qquad+ \int_s^r\biggl\langle x_*'-y_*',\,\int_V f(s,x_*,m_*,\widehat{u}^*,v)\,\eta(t,dv)\biggr\rangle \,dt \\ &\qquad -\int_s^r \biggl\langle x_*'-y_*',\, \int_U f(s,x_*,m_*,u,\widehat{v}^*)\,\xi(t,du)\biggr\rangle \,dt. \end{aligned}
\end{equation}
\tag{4.6}
$$
Пусть $\widehat{\pi}$ – план между $m(r)$ и $\nu(r)$. Рассмотрим оператор
$$
\begin{equation*}
\Theta^{r,s}[m(\cdot), \nu(\cdot),\xi_1,\eta_1, \xi_2, \eta_2](x_*,y_*)=\bigl(x(r,s,x_*,m(\cdot),\xi_1,\eta_1 ), x(r,s,y_*,\nu(\cdot),\xi_2, \eta_2 )\bigr).
\end{equation*}
\notag
$$
Тогда сдвиг оптимального плана $\pi$ имеет вид
$$
\begin{equation*}
\widehat{\pi}=\Theta^{r,s}[m(\cdot), \nu(\cdot),\widehat{u}^*,\eta_1, \xi_2, \widehat{v}^*]\sharp\pi.
\end{equation*}
\notag
$$
Оценим расстояние
$$
\begin{equation*}
\begin{aligned} \, W_2^2(m(r),\nu(r)) &\leqslant\int_{\mathbb{T}^d\times\mathbb{T}^d} \|x-y\|^2\,\widehat{\pi}(d(x,y)) \\ &= \int_{\mathbb{T}^d\times\mathbb{T}^d} \int_U\int_V \bigl\|x(r,s,x_*,m(\cdot),\widehat{u}^*,v) \\ &\qquad -x(r,s,y_*,\nu(\cdot),u,\widehat{v}^*)\bigr\|^2\,\xi(t,du)\,\eta(t,dv)\,\pi(d(x_*,y_*)). \end{aligned}
\end{equation*}
\notag
$$
Интегрируя оценку (4.6), получим
$$
\begin{equation*}
\begin{aligned} \, &W_2^2(m(r),\nu(r)) \\ &\qquad \leqslant\int_{\mathbb{T}^d\times\mathbb{T}^d}\|x_*-y_*\|^2(1+3L(r-s)) \\ &\qquad\qquad +LW_2^2(m_*,\nu_*)(r-s)+ 4C_0^2(r-s)^2 \,\pi(d(x_*,y_*)) \\ &\qquad\qquad +\int_{\mathbb{T}^d\times\mathbb{T}^d} 2\Bigl(2\sqrt{d}w_f(r-s)(r-s)+4\sqrt{d}LC_0(r-s)^2\Bigr)\,\pi(d(x_*,y_*)) \\ &\qquad\qquad +2\int_{\mathbb{T}^d\times\mathbb{T}^d}\int_s^r\biggl\langle x_*'-y_*',\,\int_V f(s,x_*,m_*,\widehat{u}^*,v)\,\eta(t,dv)\biggr\rangle\, dt\, \pi(d(x_*,y_*)) \\ &\qquad\qquad -2\int_{\mathbb{T}^d\times\mathbb{T}^d}\int_s^r \biggl\langle x_*'-y_*',\, \int_U f(s,x_*,m_*,u,\widehat{v}^*)\,\xi(t,du)\biggr\rangle\, dt\,\pi(d(x_*,y_*)) \\ &\qquad =W_2^2(m_*,\nu_*)(1+4L(r-s))+4C_0^2(r-s)^2 \\ &\qquad\qquad+2\Bigl(2\sqrt{d}w_f(r-s)(r-s) +4\sqrt{d}LC_0(r-s)^2\Bigr) \\ &\qquad\qquad +2\int_{\mathbb{T}^d\times\mathbb{T}^d}\int_s^r\biggl\langle x_*'-y_*',\,\int_V f(s,x_*,m_*,\widehat{u}^*,v)\,\eta(t,dv)\biggr\rangle\, dt \,\pi(d(x_*,y_*)) \\ &\qquad\qquad -2\int_{\mathbb{T}^d\times\mathbb{T}^d}\int_s^r \biggl\langle x_*'-y_*',\, \int_U f(s,x_*,m_*,u,\widehat{v}^*)\,\xi(t,du)\biggr\rangle\, dt\,\pi(d(x_*,y_*)). \end{aligned}
\end{equation*}
\notag
$$
В силу выбора $\widehat{u}^*$, $\widehat{v}^*$, определенных формулами (4.1), (4.2), и условия A4 имеем
$$
\begin{equation*}
\begin{aligned} \, &\int_s^r \int_{\mathbb{T}^d\times\mathbb{T}^d}\int_V \bigl\langle x_*'-y_*',\,f(s,x_*,m_*,\widehat{u}^*,v) \bigr\rangle \,\eta(t,dv)\, \pi(d(x_*,y_*))\,dt \\ &\qquad\qquad -\int_s^r \int_{\mathbb{T}^d\times\mathbb{T}^d}\biggl\langle x_*'-y_*',\, \int_U f(s,x_*,m_*,u,\widehat{v}^*)\,\xi(t,du)\biggr\rangle\, \pi(d(x_*,y_*))\, dt\leqslant 0. \end{aligned}
\end{equation*}
\notag
$$
Далее, следуя [9], введем понятия $u$- и $v$-стабильности. Определение 6. Функция $\psi_1\colon [0,T]\times \mathcal{P}^2(\mathbb{T}^d)\to \mathbb{R}$ называется $u$-стабильной, если $g(m)\leqslant \psi_1(T,m)$ и для всех $s,r\in[0,T]$, $s<r$, для любого $m_*\in \mathcal{P}^2(\mathbb{T}^d)$ и постоянного управления второго игрока $v\in V^0$ можно найти управление $\xi\in \widetilde{U}$, удовлетворяющее условию
$$
\begin{equation*}
\psi_1(s,m_*)\geqslant \psi_1(r,m(r,s,m_*,\xi,v)).
\end{equation*}
\notag
$$
Определение 7. Функция $\psi_2\colon [0,T]\times \mathcal{P}^2(\mathbb{T}^d)\to \mathbb{R}$ называется $v$-стабильной, если $g(m)\geqslant \psi_2(T,m)$ и для всех $s,r\in[0,T]$, $s<r$, для любого $m_*\in \mathcal{P}^2(\mathbb{T}^d)$ и постоянного управления первого игрока $u\in U^0$ можно найти управление $\eta\in \widetilde{V}$, удовлетворяющее условию
$$
\begin{equation*}
\psi_2(s,m_*)\leqslant \psi(r,m(r,s,m_*,u, \eta)).
\end{equation*}
\notag
$$
Теорема 2. Пусть функция $\psi_1$ $u$-стабильна. Тогда для любого $(s,m_*)\in [0,T]\times \mathcal{P}^2(\mathbb{T}^d)$
$$
\begin{equation*}
\Gamma_1 (s,m_*)\leqslant \psi_1 (s,m_*).
\end{equation*}
\notag
$$
Пусть функция $\psi_2$ $v$-стабильна. Tогда для любого $(s,m_*)\in [0,T]\times \mathcal{P}^2(\mathbb{T}^d)$
$$
\begin{equation*}
\Gamma_2 (s,m_*)\geqslant \psi_2 (s,m_*).
\end{equation*}
\notag
$$
Доказательство. Идейно повторяет доказательство теоремы 1 в работе [19]. Пусть $s\in[0,T]$, $m_*\in\mathcal{P}^2(\mathbb{T}^d) $, разбиение отрезка $[s,T]$ обозначим $\Delta=\{t_i\}_{i=0}^N$. Предположим, что диаметр разбиения $d(\Delta)\leqslant \varepsilon$.
Пусть $m(\cdot)\,{\in}\, X_1(s,m_*, \widehat{u}, \Delta)$, где $\widehat{u}$ удовлетворяет (4.1). Тогда существуют $v_i\,{\in}\,V^0$, $\widehat{u}_i= \widehat{u}[t_i,\pi]$, $i=0,\dots,N-1$, такие, что $m_i=m(t,t_i,m_i,\widehat{u}_i,v_i)$, $t\in[t_i, t_{i+1}]$.
Построим вероятность $\nu_i\in \mathcal{P}^2(\mathbb{T}^d)$ такую, что
$$
\begin{equation*}
\nu_i\in\operatorname*{arg\,min}_{m\colon W_2^2(m_i,m)\leqslant \widetilde{\rho}(\varepsilon,t_i)}\psi_1(t_i,m).
\end{equation*}
\notag
$$
Здесь и далее $\widetilde{\rho}$ определяется формулой (4.3). Отметим, что мера $\nu_i$ существует, так как множество $\{m\colon W_2^2(m_i,m)\leqslant \widetilde{\rho}(\varepsilon,t_i)\}$ – компакт.
Пусть $\widehat{v}_i=\widehat{v}[t_i,m]$, где $\widehat{v}$ удовлетворяет (4.2). Тогда в силу определения $u$-стабильной функции $\psi_1$ существует управление $\xi_i\in \widetilde{U}$ такое, что для $\nu_i(t)=m(t,t_i,\nu_i,\xi_i,\widehat{v}_i)$
$$
\begin{equation}
\psi_1(t_i, \nu_i)\geqslant\psi_1(t_{i+1}, \nu_i(t_{i+1})).
\end{equation}
\tag{4.7}
$$
Применяя лемму 1, получим
$$
\begin{equation}
W_2^2(m(t_{i+1}),\nu_i(t_{i+1}))\leqslant \widetilde{\rho}(\varepsilon,t_{i+1}).
\end{equation}
\tag{4.8}
$$
Из (4.7) и определения 3 следует, что
$$
\begin{equation*}
\begin{aligned} \, \psi_1(t_0,m_0) &\geqslant\psi_1(t_0,\nu_0)\geqslant\psi_1(t_1,\nu_0(t_1)) \geqslant\psi_1(t_1,\nu_1(t_1))\geqslant\dotsb \\ &\geqslant\psi_1(t_N,\nu_{N-1}(t_N)) \geqslant g(\nu_{N}(t_N)). \end{aligned}
\end{equation*}
\notag
$$
Используя оценку (4.8) и определение функции $\widetilde{\rho}$ (4.3), получим
$$
\begin{equation*}
g(m(T))\leqslant g(\nu_{N-1}(T))+w_g\bigl(W_2(m(T), \nu_{N-1}(T))\bigr)\leqslant \psi_1(t_0,m_0)+w_g\Bigl(\sqrt{\widetilde{\rho}(\varepsilon,T)}\Bigr).
\end{equation*}
\notag
$$
Так как $w_g\bigl(\sqrt{\widetilde{\rho}(\varepsilon,T)}\bigr)\to 0$ при $\varepsilon\to 0$, то
$$
\begin{equation*}
\Gamma_1(t_0,m_0)\leqslant\psi_1(t_0,m_0).
\end{equation*}
\notag
$$
Доказательство второй части теоремы проводится аналогичным образом с учетом смены игроков местами. Эта теорема дает аппроксимацию верхней и нижней функции цены в классе позиционных стратегий.
5. Свойства функции цены Целью настоящего пункта является доказательство теоремы существования функции цены в дифференциальной игре. Покажем, что для верхней и нижней функции цены в классе неупреждающих стратегий справедлив принцип динамического программирования. Теорема 3. Отображения $\mathrm{Val}^+$ и $\mathrm{Val}^-$ удовлетворяют принципу динамического программирования, т.е. для всех $s,r\in[0,T]$, $s<r$, $m_*\in \mathcal{P}^2(\mathbb{T}^d)$
$$
\begin{equation*}
\begin{gathered} \, \mathrm{Val}^+(s,m_*)=\inf_{\alpha\in \overline{A}_{[s,r]}}\sup_{\eta\in V_{[s,r]} } \mathrm{Val}^+(r,m(r,s,m_*,\alpha[\eta],\eta)), \\ \mathrm{Val}^-(s,m_*)=\sup_{\beta\in \overline{B}_{[s,r]} }\inf_{\xi\in U_{[s,r]}} \mathrm{Val}^-(r,m(r,s,m_*,\xi,\beta[\xi])). \end{gathered}
\end{equation*}
\notag
$$
Доказательство. Напомним, что
$$
\begin{equation*}
\mathrm{Val}^+(r,\nu_*)=\inf_{\widehat{\alpha}\in \overline{A}_{[r,T]}} \sup_{\widehat{\eta}\in V_{[r,T]} } g(m(T,r,\nu_*,\widehat{\alpha}[\widehat{\eta}],\widehat{\eta})),
\end{equation*}
\notag
$$
где $m(\cdot,r,\nu_*,u,v)$– решение задачи (2.2) с начальным условием $m(r)=\nu_*$.
Оценим величину
$$
\begin{equation*}
\begin{aligned} \, &\inf_{\widehat{\alpha}\in \overline{A}_{[s,r]}}\sup_{\widehat{\eta}\in V_{[s,r]} } \mathrm{Val}^+(r,m(r,s,m_*,\widehat{\alpha}[\widehat{\eta}],\widehat{\eta})) \\ &\qquad =\inf_{\widehat{\alpha}\in \overline{A}_{[s,r]}}\sup_{\widehat{\eta}\in V_{[s,r]} } \inf_{\alpha\in \overline{A}_{[r,T]}}\sup_{\eta\in V_{[r,T]} } g(m(T,s,m_*,\widehat{\alpha}[\widehat{\eta}]\circ \alpha[\eta],\widehat{\eta}\circ \eta)) \\ &\qquad \leqslant\inf_{\widehat{\alpha}\in \overline{A}_{[s,r]}}\inf_{\alpha\in \overline{A}_{[r,T]}}\sup_{\widehat{\eta}\in V_{[s,r]} }\sup_{\eta\in V_{[r,T]} } g(m(T,s,m_*,\widehat{\alpha}[\widehat{\eta}]\circ \alpha[\eta],\widehat{\eta}\circ \eta)) \\ &\qquad = \inf_{\alpha\in \overline{A}_{[s,T]}}\sup_{\eta\in V_{[s,T]} } g(m(T,s,m_*,\alpha[\eta],\eta))=\mathrm{Val}^+(s,m_*). \end{aligned}
\end{equation*}
\notag
$$
Здесь
$$
\begin{equation*}
\widehat{\alpha}[\widehat{\eta}]\circ \alpha[\eta](\tau)= \begin{cases} \widehat{\alpha}[\widehat{\eta}](\tau), & \tau\in[s,r], \\ \alpha[\eta](\tau), & \tau\in[r,T], \end{cases} \qquad \widehat{\eta}\circ \eta(\tau)= \begin{cases} \widehat{\eta}(\tau), & \tau\in[s,r], \\ \eta(\tau), & \tau\in[r,T]. \end{cases}
\end{equation*}
\notag
$$
Докажем обратное неравенство. Зафиксируем произвольное $\varepsilon>0$ и выберем стратегии $\widehat{\alpha}^{\widehat{\eta}}_\varepsilon\in\overline{A}_{[s,r]}$, $\alpha^{\eta}_\varepsilon \in \overline{A}_{[r,T]}$, которые зависят от программных стратегий $\widehat{\eta}\in V_{[s,r]}$, $\eta\in V_{[r,T]}$ второго игрока и такие, что
$$
\begin{equation*}
\begin{aligned} \, &\inf_{\widehat{\alpha}\in \overline{A}_{[s,r]}}\sup_{\widehat{\eta}\in V_{[s,r]} } \mathrm{Val}^+(r,m(r,s,m_*,\widehat{\alpha}[\widehat{\eta}],\widehat{\eta})) \\ &\qquad =\inf_{\widehat{\alpha}\in \overline{A}_{[s,r]}}\sup_{\widehat{\eta}\in V_{[s,r]} } \inf_{\alpha\in \overline{A}_{[r,T]}}\sup_{\eta\in V_{[r,T]} } g(m(T,s,m_*,\widehat{\alpha}[\widehat{\eta}]\circ\alpha[\eta] ,\widehat{\eta}\circ \eta )) \\ &\qquad \geqslant\sup_{\widehat{\eta}\in V_{[s,r]}}\sup_{\eta\in V_{[r,T]}} g(m(T,s,m_*,\widehat{\alpha}^{\widehat{\eta}}_\varepsilon \circ\alpha^{\eta}_\varepsilon[\widehat{\eta}\circ \eta] ,\widehat{\eta}\circ \eta))-2\varepsilon \\ &\qquad \geqslant \inf_{\alpha\in \overline{A}_{[s,T]}}\sup_{\eta\in V_{[s,T]}}g(m(T,s,m_*,\alpha[\eta],\eta))-2\varepsilon= \mathrm{Val}^+(s,m_*)-2\varepsilon. \end{aligned}
\end{equation*}
\notag
$$
Так как $\varepsilon$ произвольное, то
$$
\begin{equation*}
\inf_{\alpha\in \overline{A}_{[s,r]}}\sup_{\eta\in V_{[s,r]} } \mathrm{Val}^+(r,m(r,s,m_*,\alpha[\eta],\eta))\geqslant \mathrm{Val}^+(s,m_*).
\end{equation*}
\notag
$$
Доказательство теоремы для функции $\mathrm{Val}^-$ проводится аналогичным образом. Лемма 2. Поток вероятностей $m(\cdot,s,\mu,\varkappa)$ непрерывно зависит от начальных условий и управлений $\varkappa \in W$, порождающих его. Доказательство. Пусть $s,\{s_i\}_{i=1}^\infty \in [0,T]$, $s_i\to s$; $x_0,\{x_i\}_{i=1}^\infty \in \mathbb{T}^d$, $x_i\to x_0$; $\mu,\{\mu_i\}_{i=1}^\infty \in \mathcal{P}^2(\mathbb{T}^d) $, $W_2(\mu_i,\mu)\to 0$; $\varkappa, \{\varkappa\}_{i=1}^\infty \in W $, $\varkappa_i\to \varkappa$ в слабом смысле, $i \to \infty$. Рассмотрим поток вероятностей $t\mapsto m(t,s_i,\mu_i, \varkappa_i)$, порожденный управлениями $\varkappa_i\in W$, и поток вероятностей $t\mapsto m(t,s,\mu, \varkappa)$, порожденный управлениями $\varkappa\in W$. Покажем, что
$$
\begin{equation*}
W_2(m(t,s_i,\mu_i, \varkappa_i),m(t,s,\mu, \varkappa) )\to 0 \qquad\text{при}\quad i \to \infty.
\end{equation*}
\notag
$$
Рассмотрим движения системы (2.1) $x(t)=x(t,s_i,m_i, \varkappa_i), $ $ y(t)=x(t,s,m, \varkappa)$, стартующие из начальных условий $x(s_i)=x_i, y(s)=x_0$. Здесь и далее $w=(u,v)$.
Оценим разность для $t\in (s,T)$
$$
\begin{equation*}
\begin{aligned} \, \|x(t)-y(t)\| &\leqslant\|\widetilde{x}(t)-\widetilde{y}(t)\| \leqslant \|x_i-x_0\| \\ &\qquad +\biggl\|\int_{[s,t]\times W}\widetilde{f}\bigl(\tau,\widetilde{x}(\tau),m_i(\tau),w\bigr)\,\varkappa_i(d(\tau,w)) \\ &\qquad\qquad -\int_{[s,t]\times W}\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa(d(\tau,w))\biggr\| \\ &\qquad +\biggl\|\int_{[s,s_i]\times W}\widetilde{f}\bigl(\tau,\widetilde{x}(\tau),m_i(\tau),w\bigr)\,\varkappa_i(d(\tau,w)) \\ &\qquad\qquad-\int_{[s,s_i]\times W}\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa(d(\tau,w))\biggr\| \\ &\leqslant\biggl\| \int_{[s,t]\times W} \widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa(d(\tau,w)) \\ &\qquad\qquad-\int_{[s,t]\times W}\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa_i(d(\tau,w))\biggr\| \\ &\qquad +\int_{[s,t]\times W} \bigl\|\widetilde{f}\bigl(\tau,\widetilde{x}(\tau),m_i(\tau),w\bigr) \\ &\qquad\qquad-\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr) \bigr\|\,\varkappa_i(d(\tau,w))+\|x_i-x_0\| \\ &\qquad +\biggl\|\int_{[s,s_i]\times W}\widetilde{f}\bigl(\tau,\widetilde{x}(\tau),m_i(\tau),w\bigr)\,\varkappa_i(d(\tau,w)) \\ &\qquad\qquad-\int_{[s,s_i]\times W}\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa(d(\tau,w))\biggr\|. \end{aligned}
\end{equation*}
\notag
$$
В силу слабой сходимости управлений $\varkappa_i\to \varkappa$ по леммы 6.3 в работе [20] при $i\to \infty$ имеем, что
$$
\begin{equation*}
\int_{[s,t]\times W}\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa_i(d(\tau,w))\to \int_{[s,t]\times W} \widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa(d(\tau,w))
\end{equation*}
\notag
$$
равномерно по $t$.
Из ограниченности динамики $f$ следует, что
$$
\begin{equation*}
\begin{aligned} \, &\biggl\|\int_{[s,s_i]\times W}\widetilde{f}\bigl(\tau,\widetilde{x}(\tau),m_i(\tau),w\bigr)\,\varkappa_i(d(\tau,w)) -\int_{[s,s_i]\times W}\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa(d(\tau,w))\biggr\| \\ &\qquad \leqslant 2C_0|s_i-s|. \end{aligned}
\end{equation*}
\notag
$$
Тогда для любого $\varepsilon>0$ существует $I$ такое, что для любого $i>I $
$$
\begin{equation*}
\begin{aligned} \, & \biggl\|\int_{[s,t]\times W}\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa_i(d(\tau,w))- \int_{[s,t]\times W} \widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr)\,\varkappa(d(\tau,w))\biggr \| \\ &\qquad\qquad +2C_0|s_i-s|<\varepsilon. \end{aligned}
\end{equation*}
\notag
$$
Из условия A3 вытекает неравенство
$$
\begin{equation*}
\begin{aligned} \, &\int_{[s,t]\times W} \bigl\|\widetilde{f}\bigl(\tau,\widetilde{x}(\tau),m_i(\tau),w\bigr) -\widetilde{f}\bigl(\tau,\widetilde{y}(\tau),m(\tau),w\bigr) \bigr\|\,\varkappa_i(d(\tau,w)) \\ &\qquad \leqslant L\int_{[s,t]\times W} \bigl(\bigl\|\widetilde{x}(\tau)-\widetilde{y}(\tau)\bigr\|+W_2(m_i(\tau),m(\tau))\bigr)\, \varkappa_i(d(\tau,w)). \end{aligned}
\end{equation*}
\notag
$$
Следовательно,
$$
\begin{equation*}
\|\widetilde{x}(t)-\widetilde{y}(t)\|\leqslant \varepsilon+ L\int_{[s,t]\times W} \bigl(\|\widetilde{x}(\tau)-\widetilde{y}(\tau)\| +W_2(m_i(\tau),m(\tau))\bigr)\,\varkappa_i(d(\tau,w))+\|x_i-x_0\|.
\end{equation*}
\notag
$$
Возведем это неравенство в квадрат и проинтегрируем по плану $\pi$ между мерами $m_i(t),m(t)$:
$$
\begin{equation*}
W_2(m_i(t),m(t))^2\leqslant 4\varepsilon^2+4W_2^2(\mu_i,\mu) + 4L^2\int_{[s,t]\times W} W_2^2(m_i(\tau),m(\tau))\,\varkappa_i(d(\tau,w)).
\end{equation*}
\notag
$$
Применяя лемму Гронуолла, получим оценку
$$
\begin{equation*}
W_2(m_i(t),m(t))^2\leqslant \bigl(4\varepsilon^2+4W_2^2(\mu_i,\mu) \bigr)e^{4L^2(t-s)}.
\end{equation*}
\notag
$$
Следовательно, поток вероятностей $m$ непрерывен по начальным условиям и управлениям. Теорема 4. При выполнении условий A1–A4 функции $\mathrm{Val}^+$, $\mathrm{Val}^-$ являются непрерывными по своим аргументам. Доказательство проведем для функции $\mathrm{Val}^+$. Пусть
$$
\begin{equation*}
\begin{gathered} \, g(m(T,s_i,\mu_i,\xi_i, \eta_i))=\inf_{\alpha\in \overline{A}_{[s,r]}}\sup_{\eta\in V_{[s,r]} } \mathrm{Val}^+(T,m(T,s_i,\mu_i,\alpha[\eta],\eta))=\mathrm{Val}^+(s_i,\mu_i), \\ g(m(T,s_*,\mu,\xi_*, \eta_*))=\inf_{\alpha\in \overline{A}_{[s,r]}}\sup_{\eta\in V_{[s,r]} } \mathrm{Val}^+(T,m(T,s_*,\mu,\alpha[\eta],\eta))=\mathrm{Val}^+(s_*,\mu) \end{gathered}
\end{equation*}
\notag
$$
и $W_2(\mu_i,\mu)\to0$, $i\to \infty$. Покажем, что $\mathrm{Val}^+(s_i,\mu_i)\to \mathrm{Val}^+(s_*,\mu)$ при $s_i\to s$, $W_2(\mu_i,\mu)\to 0$, $i\to \infty$.
Оценим
$$
\begin{equation*}
\begin{aligned} \, &g(m(T,s_i,\mu_i,\xi_i, \eta_i))-g(m(T,s_*,\mu,\xi_*, \eta_*)) \\ &\qquad \leqslant g(m(T,s_i,\mu_i,\xi_*, \eta_i))-g(m(T,s_*,\mu,\xi_*, \eta_*)) \\ &\qquad \leqslant g(m(T,s_i,\mu_i,\xi_*, \eta_*))-g(m(T,s_*,m_*,\xi_*, \eta_*))+\varepsilon \qquad \forall\, \varepsilon>0. \end{aligned}
\end{equation*}
\notag
$$
Последнее неравенство следует из определения точной верхней грани для функции $g$. С другой стороны,
$$
\begin{equation*}
\begin{aligned} \, &g(m(T,s_i,\mu_i,\xi_i, \eta_i))-g(m(T,s_*,\mu,\xi_*, \eta_*)) \\ &\qquad \geqslant g(m(T,s_i,\mu_i,\xi_i, \eta_*))-g(m(T,s_*,\mu,\xi_*, \eta_*)) \\ &\qquad \geqslant g(m(T,s_i,\mu_i,\xi_*, \eta_*))-g(m(T,s_*,\mu,\xi_*, \eta_*))-\varepsilon \qquad \forall\, \varepsilon>0. \end{aligned}
\end{equation*}
\notag
$$
Последнее неравенство следует из определения точной нижней грани для функции $g$. Напомним, что $W_2(\mu_i,\mu)\to0$, $m(\cdot)$ непрерывно зависит от управлений и начального условия по лемме 2, функция $g$ непрерывна. Следовательно, $\mathrm{Val}^+ $ непрерывна по своим аргументам. Аналогичным образом доказывается непрерывность $\mathrm{Val}^-$. Теорема 5. Функция $\mathrm{Val}^+$ $u$- и $v$-стабильна одновременно. Функция $\mathrm{Val}^-$ $u$- и $v$-стабильна одновременно. Доказательство. Для доказательства $u$-стабильности верхней функции цены зададим $\varepsilon >0$ и стратегию $\alpha_\varepsilon $ первого игрока такую, что
$$
\begin{equation*}
\mathrm{Val}^+(s,m_*)\geqslant \sup_{\eta\in V_{[s,r]}} \mathrm{Val}^+(r,m(r,s,m_*,\alpha_\varepsilon[\eta],\eta))-\varepsilon.
\end{equation*}
\notag
$$
Для любого постоянного управления $v\in V^0$ существует управление $\xi_\varepsilon(\cdot)=\alpha_\varepsilon[v]$, удовлетворяющее неравенству
$$
\begin{equation}
\mathrm{Val}^+(s,m_*)\geqslant \mathrm{Val}^+(r,m(r,s,m_*,\xi_\varepsilon(\cdot),v))-\varepsilon .
\end{equation}
\tag{5.1}
$$
Рассмотрим последовательность $\{\xi_\varepsilon(\cdot)\}\in \widetilde{U}$. Из последовательности $\{\xi_\varepsilon\}\in \widetilde{U}$ можно выделить слабо сходящуюся подпоследовательность $\{\xi_{\varepsilon^k}\}$ на $\widetilde{U}$, так как $\widetilde{U}$ – компакт по теореме Прохорова. Обозначим предел подпоследовательности $\{\xi_{\varepsilon^k}\}$ символом $\xi$. Переходя к пределу при $\varepsilon\to 0$ в неравенстве (5.1) согласно лемме 2, получим
$$
\begin{equation*}
\mathrm{Val}^+(s,m_*)\geqslant \mathrm{Val}^+(r,m(r,s,m_*,\xi,v)).
\end{equation*}
\notag
$$
Для доказательства свойства $v$-стабильности отметим, что каждое постоянное управление является неупреждающей стратегией. Справедливо неравенство для произвольного постоянного управления $u\in U^0$
$$
\begin{equation*}
\mathrm{Val}^+(s,m_*)\leqslant \sup_{\eta\in V_{[s,r]}}\mathrm{Val}^+(r,m(r,s,m_*,u,\eta)).
\end{equation*}
\notag
$$
Построим стратегию второго игрока $\beta_\varepsilon$ такую, что выполнено неравенство для произвольного постоянного управления $u\in U^0$:
$$
\begin{equation*}
\mathrm{Val}^+(s,m_*)\leqslant \mathrm{Val}^+(r,m(r,s,m_*,u,\beta_\varepsilon[u]))+\varepsilon.
\end{equation*}
\notag
$$
Получим, что для любого $\varepsilon>0$ и управления $u\in U^0$ существует управление $\eta_\varepsilon(\cdot)=\beta_\varepsilon[u]\in \widetilde{V}$ такое, что выполнено
$$
\begin{equation}
\mathrm{Val}^+(s,m_*)\leqslant \mathrm{Val}^+(r,m(r,s,m_*,u,\eta_\varepsilon))+\varepsilon.
\end{equation}
\tag{5.2}
$$
Из последовательности $\{\eta_{\varepsilon}\}\in \widetilde{V}$ можно выделить слабо сходящуюся подпоследовательность $\{\eta_{\varepsilon^k}\}$ на $\widetilde{V}$, так как $\widetilde{V}$ – компакт по теореме Прохорова. Обозначим предел подпоследовательности $\{\eta_{\varepsilon^k}\}$ символом $\eta$. Переходя к пределу при $\varepsilon\to 0$ в неравенстве (5.2) согласно лемме 2, получим
$$
\begin{equation*}
\mathrm{Val}^+(s,m_*)\leqslant \mathrm{Val}^+(r,m(r,s,m_*,u,\eta)).
\end{equation*}
\notag
$$
Доказательство теоремы для функции $\mathrm{Val}^-$ проводится аналогичным образом. Доказательство теоремы 1. По построению функция $\mathrm{Val}^+$ является наименьшей $u$-стабильной функцией, а $\mathrm{Val}^-$ – наибольшей $v$-стабильной функцией. Согласно теореме 5 функции $\mathrm{Val}^+$, $\mathrm{Val}^-$ одновременно $u$-стабильны и $v$-стабильны, следовательно, справедливы неравенства
$$
\begin{equation*}
\mathrm{Val}^+(s,m)\leqslant \mathrm{Val}^-(s,m)\leqslant \mathrm{Val}^+(s,m).
\end{equation*}
\notag
$$
Значит, существует цена $\mathrm{Val}^+(s,m)=\mathrm{Val}^-(s,m)$ в квазистратегиях. Отметим, что $\mathrm{Val}^+(s,m)\geqslant\Gamma_1(s,m)$ и $\mathrm{Val}^-(s,m)\leqslant\Gamma_2(s,m)$ по теореме 2. Отсюда следует, что
$$
\begin{equation*}
\Gamma_1(s,m)=\Gamma_2(s,m)=\mathrm{Val}^+(s,m)=\mathrm{Val}^-(s,m).
\end{equation*}
\notag
$$
Автор выражает глубокую благодарность доктору матем. наук Ю. В. Авербуху за ценные замечания.
|
|
|
СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ
|
|
|
1. |
P. Cardaliaguet, M. Quincampoix, “Deterministic differential games under probability knowledge of initial condition”, Int. Game Theory Rev., 10:1 (2008), 1–16 |
2. |
A. Marigonda, M. Quincampoix, “Mayer control problem with probabilistic uncertainty on initial positions”, J. Differential Equations, 264:5 (2018), 3212–3252 |
3. |
R. Colombo, M. Herty, M. Mercier, “Control of the continuity equation with a non local flow”, ESAIM Control Optim. Calc. Var., 17:2 (2011), 353–379 |
4. |
R. Brockett, “Notes on the control of the Liouville equation”, Control of Partial Differential Equations, Lecture Notes in Math., 2048, 2012, 101–129 |
5. |
Н. Н. Красовский, А. И. Субботин, Позиционные дифференциальные игры, Наука, М., 1974 |
6. |
А. И. Субботин, А. Г. Ченцов, Оптимизация гарантии в задачах управления, Наука, М., 1981 |
7. |
R. J. Elliott, N. J. Kalton, “Values in differential games”, Bull. Amer. Math. Soc., 78 (1972), 427–431 |
8. |
P. Varaya, J. Lin, “Existence of saddle points in differential games”, SIAM J. Control, 7:1 (1969), 142–157 |
9. |
А. И. Субботин, Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации, Институт компьютерных исследований, М.–Ижевск, 2003 |
10. |
T. Basar, J. Moon, “Zero-sum differential games on the Wasserstein space”, Commun. Inf. Syst., 21:2 (2021), 219–251 |
11. |
B. Piccoli, F. Rossi, “Measure-theoretic models for crowd dynamics”, Crowd Dynamics, v. 1, Model. Simul. Sci. Eng. Technol., Theory, Models, and Safety Problems, Birkhauser, Basel, 2018, 137–165 |
12. |
A. Cosso, H. Pham, “Zero-sum stochastic differential games of generalized McKean-Vlasov type”, J. Math. Pures Appl. (9), 129 (2019), 180–212 |
13. |
Yu. Averboukh, “A stability property in mean field type differential games”, J. Math. Anal. Appl., 498:1 (2021), 124940 |
14. |
В. И. Богачев, Основы теории меры, РХД, М.–Ижевск, 2003 |
15. |
Дж. Варга, Оптимальное управление дифференциальными и функциональными уравнениями, Наука, М., 1977 |
16. |
Ю. В. Прохоров, “Сходимость случайных процессов и предельные теоремы теории вероятностей”, Теория вероятн. и ее примен., 1:2 (1956), 177–238 |
17. |
L. Ambrosio, N. Gigli, G. Savare, Gradient Flows in Metric Spaces and in the Space of Probability Measures, Birkhauser, Basel, 2005 |
18. |
F. Santambrogio, Optimal Transport for Applied Mathematicians. Calculus of Variations, PDEs, and modeling, Birkhauser, Basel, 2015 |
19. |
Y. Averboukh, “Krasovskii–Subbotin approach to mean field type differential games”, Dyn. Games Appl., 9:3 (2019), 573–593 |
20. |
Y. Averboukh, Stability analysis of mean field type control system with major agent, 2022, arXiv: 2212.05736 |
Образец цитирования:
Е. А. Колпакова, “Позиционные стратегии в игровой задаче управления нелокальным уравнением неразрывности”, Матем. заметки, 114:4 (2023), 525–542; Math. Notes, 114:4 (2023), 457–471
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mzm13898https://doi.org/10.4213/mzm13898 https://www.mathnet.ru/rus/mzm/v114/i4/p525
|
Статистика просмотров: |
Страница аннотации: | 154 | PDF полного текста: | 22 | HTML русской версии: | 87 | Список литературы: | 40 | Первая страница: | 5 |
|