Динь Зунг, “Коллокационная аппроксимация глубокими $\mathrm{ReLU}$-нейронными сетями решений параметрических и стохастических уравнений с частными производными c логнормальными входами”, Матем. сб., 214:4 (2023), 38–75; Dinh Dũng, “Collocation approximation by deep neural ReLU networks for parametric and stochastic PDEs with lognormal inputs”, Sb. Math., 214:4 (2023), 479

Математический сборник

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Скоро в журнале
	Архив
	Импакт-фактор
	Правила для авторов
	Лицензионный договор
	Загрузить рукопись
	Историческая справка

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Матем. сб.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Математический сборник, 2023, том 214, номер 4, страницы 38–75
DOI: https://doi.org/10.4213/sm9791 (Mi sm9791)

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Коллокационная аппроксимация глубокими $\mathrm{ReLU}$-нейронными сетями решений параметрических и стохастических уравнений с частными производными c логнормальными входами

Динь Зунг

Information Technology Institute, Vietnam National University, Hanoi, Vietnam

PDF полного текста (947 kB) PDF английской версии (737 kB) Полный текст в HTML Список цитирования (2)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.4213/sm9791

Аннотация: Дается оценка скорости сходимости коллокационной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями решений эллиптических уравнений с частными производными c логнормальными входами, параметризованных параметром $\boldsymbol{y}$ из некомпактного множества ${\mathbb R}^\infty$. Погрешность аппроксимации измеряется в норме пространства Бохнера $L_2({\mathbb R}^\infty, V, \gamma)$, где $\gamma$ – бесконечная тензорная стандартная гауссовская вероятностная мера на ${\mathbb R}^\infty$, а $V$ – энергетическое пространство. Также получены не зависящие от размерности результаты в случае, когда логнормальные входы параметризованы множеством ${\mathbb R}^M$ очень большой размерности $M$, а погрешность аппроксимации измеряется в равномерной норме пространства Бохнера $ L_\infty^{\sqrt{g}}({\mathbb R}^M, V)$ с весом $\sqrt{g_M}$, где $g_M$ – плотность распределения стандартной гауссовской вероятностной меры на ${\mathbb R}^M$.
Библиография: 62 названия.

Ключевые слова: многомерная аппроксимация, коллокационная аппроксимация, глубокие $\mathrm{ReLU}$-нейронные сети, параметрические эллиптические уравнения с частными производными, логнормальные входы.

Финансовая поддержка	Номер гранта
National Foundation for Science and Technology Development (Vietnam)	102.01-2020.03
Работа выполнена при поддержке фонда Vietnam National Foundation for Science and Technology Development – NAFOSTED (грант № 102.01-2020.03).

Поступила в редакцию: 09.05.2022 и 15.12.2022

Англоязычная версия:
Sbornik: Mathematics, 2023, Volume 214, Issue 4, Pages 479–515
DOI: https://doi.org/10.4213/sm9791e

Реферативные базы данных:

Тип публикации: Статья

MSC: 65C30, 65D05, 65D32, 65N15, 65N30, 65N35

§ 1. Введение

Уравнения с частными производными (УрЧП) с параметрическими и стохастическими входами широко используются при моделировании различных явлений в науке и технике. Стохастичность таких уравнений позволяет учитывать неопределенность в различных параметрах, присутствующих в физических явлениях, моделируемых уравнением. Центральной задачей количественной оценки вычислительной неопределенности является построение эффективной численной аппроксимации решений параметрических и стохастических УрЧП. В последние десятилетия эта задача привлекала внимание многих исследователей, и в ней был достиг значительный прогресс. По этой теме имеется большое число работ, из которых мы упомянем следующие исследования, имеющие непосредственное отношение к тематике настоящей работы: [3]–[5], [7]–[12], [14], [15], [24], [36], [61], [62]. В частности, коллокационные аппроксимации, основанные на использовании конечного числа частных решателей для параметрических и стохастических УрЧП, рассматривались в работах [8]–[10], [14], [15], [18], [24], [61].

Универсальность нейронных сетей в задачах аппроксимации стала понятна, начиная с 1980-х гг. (см. [6], [13], [25], [37]). В последние годы теория глубоких нейронных сетей, имеющих ряд преимуществ по сравнению с неглубокими сетями, получила интенсивное развитие и многочисленные важные приложения. Все увеличивающееся число приложений нейронных сетей обуславливает важность их теоретического анализа и понимания причин их успешного практического применения (см. [2], [20], [44], [56], [57]). В последние годы появился ряд интересных исследований, направленных на изучение роли глубины и архитектуры глубоких нейронных сетей в задачах неадаптивной и адаптивной аппроксимаций функций, обладающих некоторой регулярностью (см. [1], [22], [29], [32], [31], [42], [39], [51], [48], [59], [60]). Многомерная аппроксимация глубокими нейронными сетями исследовалась в работах [43], [53], [16], [19]; приложения таких сетей к многомерным УрЧП изучались в [23], [27], [28], [30], [33], [46], [52]. В большинстве упомянутых работ в качестве функций активации глубоких нейронных сетей применялись выпрямленные линейные блоки (Rectified Linear Unit, ReLU), используемые во многих приложениях в силу своей простоты. На выходе такой глубокой нейронной сети выдается непрерывная кусочно линейная функция, которая вычисляется легко и с малыми затратами. По поводу различных задач и подходов, связанных с аппроксимацией нейронными сетями, мы отсылаем читателя к недавним обзорам [21], [47] и приведенной в них литературе.

В ряде недавно опубликованных работ были рассмотрены различные задачи и методы аппроксимации глубокими нейронными сетями решений параметрических и стохастических УрЧП. Среди используемых подходов отметим метод снижения размерности [58], изучение скорости сходимости аппроксимации глубокими нейронными сетями решений параметрических эллиптических УрЧП, основанной на обобщенном полиномиальном разложении хаоса (ОПРХ) (generalized polynomial chaos expansions; GPC) (см. [17], [49]), приведенные базисные методы (см. [38]), практическое машинное обучение дискретизованному отображению “параметр–решение” (см. [26]), байесовская инверсия УрЧП (см. [33], [34], [45]) и т.д. Отметим, что, за исключением [17], во всех этих работах рассматривались параметрические и стохастические УрЧП с аффинными входами на компактном множестве ${\mathbb I}^\infty:=[-1,1]^\infty$. В работе [49] доказаны не зависящие от размерности оценки на степень представимости глубокими нейронными сетями равномерной аппроксимации решений параметрических эллиптических УпЧП с аффинным входом на ${\mathbb I}^\infty$, основанные на $n$-членном приближении неортогонального тейлоровсского ОПРХ. Конструкция аппроксимирующих глубоких нейронных сетей основана на суммируемости с весом коэффициентов тейлоровского ОПРХ решения, обеспечиваемой его аналитичностью. В работе [17] рассматриваются неадаптивные методы аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями решений $u$ параметрических и стохастических эллиптических УрЧП c логнормальными входами на некомпактном множестве ${\mathbb R}^\infty$. Погрешность аппроксимации измеряется в норме пространства Бохнера $L_2({\mathbb R}^\infty, V, \gamma)$, где $\gamma$ – тензорная стандартная гауссовская вероятность на ${\mathbb R}^\infty$, а $V$ – энергетическое пространство. Аппроксимация основана на $m$-членном приближении эрмитова ОПРХ для $u$. При некоторых предположениях относительно $\ell_q$-суммируемости ($0<q<\infty$) для логнормальных входов было доказано, что для любого целого $n > 1$ можно построить неадаптивную финитную глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_n$ размера $\leqslant n$ на ${\mathbb R}^m$, где $m=\mathcal O(n/\ln n)$, с $m$ выходами и такую, что функция, полученная заменой полиномов Эрмита этими $m$ выходами в частичной сумме порядка $m$, аппроксимирует $u$ с оценкой погрешности $\mathcal O((n/\ln n )^{-1/q})$. B [17] ОПРХ Якоби и Тейлора были также использованы для получения результатов в аналогичных задачах для параметрических и стохастических эллиптических УрЧП с аффинными входами.

В настоящей работе мы строим глубокие $\mathrm{ReLU}$-нейронные сети для задач коллокационной аппроксимации решений параметрических и стохастических эллиптических УрЧП c логнормальными входами. Также изучается скорость сходимости такой аппроксимации в терминах размера глубоких ReLU-нейронных сетей.

Пусть $D \subset \mathbb R^d$ – ограниченная липшицева область. Рассмотрим диффузионное эллиптическое уравнение

$$ \begin{equation} - \operatorname{div} (a\nabla u)=f \quad \text{на } \ D, \qquad u|_{\partial D}= 0, \end{equation} \tag{1.1} $$

при заданной правой части $f$ и диффузионном коэффициенте $a$, определенных на области $D$. Пусть $V:=H^1_0(D)$ – энергетическое пространство. Через $H^{-1}(D)$ обозначим сопряженное пространство к $V$. Предположим, что $f \in H^{-1}(D)$ (ниже мы считаем, что это предположение выполнено всегда и не оговариваем этого отдельно). Если $a \in L_\infty(D)$ удовлетворяет предположению об эллиптичности

$$ \begin{equation*} 0<a_{\min} \leqslant a \leqslant a_{\max}<\infty, \end{equation*} \notag $$

то по хорошо известной лемме Лакса–Мильграма существует единственное слабое решение $u \in V$ (непараметрического) уравнения (1.1)

$$ \begin{equation*} \int_{D} a\nabla u \cdot \nabla v \, \mathrm d \boldsymbol{x}=\langle f , v \rangle \quad \forall\, v \in V. \end{equation*} \notag $$

Для уравнения (1.1) рассмотрим диффузионные коэффициенты в параметризованной форме $a=a(\boldsymbol{y})$, где $\boldsymbol{y}=(y_j)_{j \in \mathbb N}$ – последовательность вещественных параметров из ${\mathbb R}^\infty$. Через $u(\boldsymbol{y})$ обозначим решение параметрического диффузионного эллиптического уравнения

$$ \begin{equation} - \operatorname{div} (a(\boldsymbol{y})\nabla u(\boldsymbol{y}))=f \quad\text{на }\ D, \qquad u(\boldsymbol{y})|_{\partial D}= 0. \end{equation} \tag{1.2} $$

Получающийся разрешающий оператор отображает $\boldsymbol{y}\in {\mathbb R}^\infty $ в $ u(\boldsymbol{y})\in V$. Нашей целью является численная аппроксимация этого сложного отображения при помощи малого числа параметров с гарантированной погрешностью в заданной норме. В зависимости от природы моделируемого объекта параметр $\boldsymbol{y}$ может быть детерминированным или случайным. В настоящей работе мы рассматриваем так называемый логнормальный случай, в котором диффузионный коэффициент $a$ имеет вид

$$ \begin{equation} a(\boldsymbol{y})=\exp(b(\boldsymbol{y})), \end{equation} \tag{1.3} $$

где $ b(\boldsymbol{y})$ – бесконечномерная линейная форма

$$ \begin{equation} b(\boldsymbol{y})=\sum_{j=1}^\infty y_j\psi_j, \qquad \boldsymbol{y} \in {\mathbb R}^\infty, \end{equation} \tag{1.4} $$

$y_j$ — независимые одинаково распределенные стандартные гауссовские случайные величины, а $\psi_j \in L_\infty(D)$. Мы также рассматриваем конечномерную форму

$$ \begin{equation} b(\boldsymbol{y})=\sum_{j=1}^M y_j\psi_j, \qquad \boldsymbol{y} \in {\mathbb R}^M, \end{equation} \tag{1.5} $$

в которой число $M$ (размерность) конечно, но очень велико. Отметим, что для фиксированного $\boldsymbol{y}$ при каждом из определений (1.4) и (1.5) величины $ b(\boldsymbol{y})$ для уравнения (1.2) выполнено предположение об эллиптичности и, следовательно, это уравнение имеет единственное слабое решение $u(\boldsymbol{y}) \in V$. Однако по $\boldsymbol{y}$ нет равномерной эллиптичности, поскольку пространства ${\mathbb R}^\infty$ и ${\mathbb R}^M$ некомпактны.

Кратко опишем основные результаты настоящей работы.

Изучаются неадаптивные коллокационные методы аппроксимации при помощи многомерных глубоких $\mathrm{ReLU}$-нейронных сетей решений $u(\boldsymbol{y})$ параметрических диффузионных эллиптических УрЧП (1.2) c логнормальными входами (1.3) в бесконечномерном (1.4) и конечномерном (1.5) случаях. В бесконечномерном случае (1.4) погрешность аппроксимации измеряется в норме пространства Бохнера $ L_2({\mathbb R}^\infty, V, \gamma)$, где $\gamma$ – стандартная гауссовская вероятность на ${\mathbb R}^\infty$, задаваемая бесконечным тензорным произведением. Предположим, что существует такая возрастающая последовательность $\boldsymbol{\rho}= (\rho_{j})_{j \in \mathbb N}$ положительных чисел, больших единицы, что при некотором $q $, $0<q<2$,

$$ \begin{equation*} \biggl\|\sum _{j \in \mathbb N} \rho_j |\psi_j| \biggr\| _{L_\infty(D)} <\infty, \qquad \boldsymbol{\rho}^{-1}=(\rho_{j}^{-1}) _{j \in \mathbb N}\in {\ell_q}(\mathbb N). \end{equation*} \notag $$

Тогда для любого заданного произвольного числа $\delta$, $0 < \delta < \min (1, 1/q -1/2)$, и любого целого $n > 1$ можно построить глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_n:= (\phi_j)_{j=1}^m$ на ${\mathbb R}^m$ при $m=\mathcal O (n^{1-\delta})$ размера $\leqslant n$ и последовательность точек $Y_n:=(\boldsymbol{y}^j)_{j=1}^m \subset {\mathbb R}^m$ такие, что:

(i) глубокая $\mathrm{ReLU}$-нейронная сеть $\boldsymbol{\phi}_n$ и последовательность точек $Y_n$ не зависят от $u$;

(ii) выходная размерность сети $\boldsymbol{\phi}_n$ равна $m=\mathcal O (n^{1-\delta})$;

(iii) глубина сети $\boldsymbol{\phi}_n$ равна $\mathcal O(n^\delta)$;

(iv) компоненты $\phi_j$, $j=1, \dotsc, m$, сети $\boldsymbol{\phi}_n$ являются глубокими ReLU-нейронными сетями на $\mathbb R^{m_j}$, $m_j=\mathcal O(n^\delta)$, с носителями в суперкубе $[-T,T]^{m_j}$, где $T=\mathcal O (n^{1-\delta})$;

(v) если $\Phi_j$ – расширение сети $\phi_j$ на все ${\mathbb R}^\infty$ по формуле $\Phi_j(\boldsymbol{y})=\phi_j\bigl((y_j)_{j=1}^{m_j}\bigr)$, где $\boldsymbol{y}=(y_j)_{j\in \mathbb N} \in {\mathbb R}^\infty$, то коллокационная аппроксимация $u$ функциями

$$ \begin{equation*} \Phi_n u:=\sum_{j=1}^m u(\boldsymbol{y}^j) \Phi_j, \end{equation*} \notag $$

построенными по $m$ решателям $(u(\boldsymbol{y}^j))_{j=1}^m$ и глубокой ReLU сети $\boldsymbol{\phi}_n$, имеет следующую погрешность аппроксимации:

$$ \begin{equation} \|u- \Phi_n u\|_{L_2({\mathbb R}^\infty, V, \gamma)} =\mathcal O(m^{-(1/q-1/2)}) =\mathcal O(n^{-(1-\delta)(1/q-1/2)}). \end{equation} \tag{1.6} $$

Мы также получаем аналогичные (i)–(v) результаты в конечномерном случае (1.5), где погрешность аппроксимации измеряется в равномерной норме пространства Бохнера $L_\infty^{\sqrt{g}}({\mathbb R}^M, V)$ c весом $\sqrt{g_M}$, где $g_M$ – плотность распределения стандартной гауссовской вероятностной меры на ${\mathbb R}^M$.

Указанные выше утверждения выводятся из результатов по коллокационной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями функций из пространств Бохнера, построенных по сепарабельному гильбертову пространству и стандартным гауссовским вероятностным мерам. При выводе этих результатов нам потребуются утверждения о суммировании в пространствах $\ell_2$ с весом коэффициентов эрмитова ОПРХ функций (по поводу дальнейших деталей см. § 3).

Отметим, что оценка погрешности по $m$ в (1.6) имеет такой же вид, как оценка погрешности коллокационной аппроксимации $u$ при разреженной сеточной лагранжевой ОПРХ-интерполяции, основанной на тех же $m$ частных решателях $(u(\boldsymbol{y}^j))_{j=1}^m$ — эта оценка на настоящий момент является наилучшей (см. [15; следствие 3.1]). Помимо этого, скорость сходимости $(1-\delta)(1/q-1/2)$ с произвольным малым $\delta > 0$, оцениваемая в терминах размера глубокой $\mathrm{ReLU}$-сети, при коллокационной аппроксимации сравнима со скоростью сходимости $1/q-1/2$ в терминах числа частных решателей для коллокационной аппроксимации при разреженной сеточной лагранжевой ОПРХ-интерполяции. Этот результат кардинально отличается от результатов работы [17], где оценивается скорость сходимости при аппроксимации глубокими $\mathrm{ReLU}$-сетями решений параметрических диффузионных эллиптических УрЧП (1.2) c логнормальными входами (1.3), основанной на другой входной информации – коэффициентах эрмитова ОПРХ относительно их конечных срезок. Несмотря на то, что указанная скорость сходимости лучше, чем скорость (1.6), хорошо известно, что, в общем, поскольку коллокационные аппроксимации основаны на некоторых частных решателях, они более важны и имеют больше приложений, чем аппроксимации, основанные на спектральной информации о коэффициентах ортонормированного разложения. Распространение утверждений (i)–(v) на случай пространств Бохнера $ L_\infty^{\sqrt{g}}({\mathbb R}^M, V)$ также составляет важное отличие результатов настоящей работы от [17].

Подчеркнем, что мотивацией настоящей работы является получение результатов об аппроксимации, обеспечивающих возможности неадаптивной коллокационной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями, с оценкой скорости сходимости аппроксимаций, решений параметрических диффузионных эллиптических уравнений (1.2) c логнормальными входами. Однако в настоящей работе мы не рассматриваем аспекты численной реализации наших результатов. Отметим, что сами по себе полученные результаты не дают практически реализуемого метода аппроксимации, поскольку в них не рассматривается аппроксимация коэффициентов, возникающих как частные решатели при некоторых значениях пространственных переменных. Помимо этого аппроксиманты $\Phi_n u$ не являются действительно глубокими $\mathrm{ReLU}$-сетями, а являются комбинацией таких частных решателей и компонент глубокой $\mathrm{ReLU}$-сети. Было бы интересно исследовать задачу полной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями решений $u$ параметрических и стохастических эллиптических УрЧП путем комбинации пространственных и параметрических областей при использовании полностью дискретной аппроксимации из [3], [15]. Эта задача будет рассмотрена в одной из следующих работ автора.

Статья организована следующим образом. В § 2 приводятся необходимые сведения о глубоких $\mathrm{ReLU}$-нейронных сетях. В § 3 рассматриваются коллокационные методы аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями функций из пространств Бохнера $L_2({\mathbb R}^\infty, X, \gamma)$ и $L_2( {\mathbb R}^M,X,\gamma)$, которые строятся по сепарабельному гильбертову пространству $X$ и тензорной стандартной гауссовской вероятностной мере $\gamma$. B § 4 результаты из § 3 применяются для коллокационной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями решений $u$ параметрических и стохастических УрЧП (1.2) c логнормальными входами (1.3) в бесконечномерном (1.4) и конечномерном случаях (1.5).

Обозначения

Как обычно, $\mathbb N$ обозначает множество натуральных чисел, $\mathbb Z$ – множество целых чисел, $\mathbb R$ – множество вещественных чисел и $\mathbb N_0:=\{s\,{\in}\, \mathbb Z$: $s \geqslant 0 \}$. Через $\mathbb R^\infty$ мы обозначаем множество всех последовательностей $\boldsymbol{y}= (y_j)_{j\in \mathbb N}$, где $y_j\in \mathbb R$. Мощность множества $G$ обозначается через $|G|$. Если $\boldsymbol{a}=(a_j)_{j \in \mathcal J}$ – последовательность положительных чисел, индексированная множеством $\mathcal J$, то через $\boldsymbol{a}^{-1}$ мы обозначаем последовательность $ (a_j^{-1})_{j \in \mathcal J}$. Через $C$ и $K$ мы обозначаем положительные постоянные, которые могут принимать различные значения в различных соотношениях. Обозначения $C_{\alpha,\beta,\dots }$ и $K_{\alpha,\beta,\dots }$ подчеркивают зависимость постоянных $C_{\alpha,\beta,\dots }$ и $K_{\alpha,\beta,\dots }$ от $\alpha,\beta,\dots $ в случаях, когда эта зависимость важна.

Для удобства читателя мы приведем некоторые широко используемые в настоящей работе обозначения и определения и укажем те места в работе, где они вводятся.

Параграф 2: $W(\Phi)$, $L(\Phi)$ и $\operatorname{supp}(\Phi)$ обозначают соответственно размер, глубину и носитель глубокой $\mathrm{ReLU}$-нейронной сети $\Phi$; $\sigma(t):=\max\{t,0\}$ – функция активации выпрямленного линейного блока (ReLU).

Пункт 3.1: $\mathbb F$ – множество всех последовательностей, состоящих из неотрицательных целых чисел $\boldsymbol{s}=(s_j)_{j \in \mathbb N}$ с конечным носителем $\operatorname{supp} (\boldsymbol{s}):=\{j \in \mathbb N$: $s_j >0\}$. Буква $J$ обозначает или бесконечность $\infty$ или число $M \in \mathbb N$; множество $U$ определяется в (3.2), множество $\mathcal F$ – в (3.6), множество $\mathcal N$ – в (3.7); $\gamma$ и $\gamma_M$ – стандартные гауссовские меры на ${\mathbb R}^\infty$ и ${\mathbb R}^M$ соответственно. Для $\boldsymbol{s} \in \mathbb F$ положим $|\boldsymbol{s}|_1:=\sum_{j \in \mathbb N} s_j$ и $|\boldsymbol{s}|_0:=|{\operatorname{supp} (\boldsymbol{s})}|$. Далее, для $\boldsymbol{s}, \boldsymbol{s}' \in \mathcal F$ неравенство $\boldsymbol{s}' \leqslant \boldsymbol{s}$ означает, что $s_j' \leqslant s_j$, $j \in \mathcal N$. Множество $\boldsymbol{\sigma}=(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$, где $\sigma_{\boldsymbol{s}} \in \mathbb R$, называется возрастающим, если $\sigma_{\boldsymbol{s}'} \leqslant \sigma_{\boldsymbol{s}}$ при $\boldsymbol{s}' \leqslant \boldsymbol{s}$. Пространство Бохнера $\mathcal L(U,X)$ определяется в (3.5); пространства Бохнера $L_2(U,X,\gamma)$ и $L_{\infty}^{\sqrt{g}}({\mathbb R}^M,X)$ – в (3.3) и (3.4) соответственно. В формуле (3.9) $H_{\boldsymbol{s}}$ – $\boldsymbol{s}$-й ортонормированный полином Эрмита, а $v_{\boldsymbol{s}}$ – $\boldsymbol{s}$-й коэффициент эрмитова ОПРХ для $v$.

Пункт 3.2: $Y_m=(y_{m;k})_{k \in \pi_m}$ – упорядоченный по возрастанию набор из $m+1$ корня полинома Эрмита $H_{m+1}$; $I_m$ – интерполяционный оператор Лагранжа, определенный в (3.12) ниже; $\lambda_m$ – константа Лебега, определенная в (3.13); $\Delta_{\boldsymbol{s}}$ – оператор тензорного произведения из (3.16); $I_\Lambda$ – ОПРХ-интерполяционный оператор, определенный в (3.18); множество $\boldsymbol{p}(\theta, \lambda):=(p_{\boldsymbol{s}}(\theta, \lambda))_{\boldsymbol{s} \in \mathcal F}$ определяется в (3.20); множество $\Lambda(\xi)$ – в (3.21), а множество $G(\xi)$ – в (3.23).

§ 2. Глубокие $\mathrm{ReLU}$-нейронные сети

В этом параграфе излагаются некоторые предварительные сведения по теории глубоких $\mathrm{ReLU}$-нейронных сетей, которые будут использованы ниже в качестве аппроксимирующего агрегата. Как и в работе [59], мы будем использовать глубокие нейронные сети прямого распространения (feed-forward neural networks), обеспечивающие связи между нейронами в каждом слое с нейронами во всех предшествующих слоях (но не между нейронами в одном и том же слое). Функция активации выпрямленного линейного блока (ReLU) определяется формулой $\sigma(t):=\max\{t,0\}$, $t\in \mathbb R$. Положим $\sigma(\boldsymbol{x}):=(\sigma(x_1),\dots, \sigma(x_d))$ при $\boldsymbol{x}=(x_1,\dots,x_d) \in {\mathbb R}^d$.

Напомним стандартное определение глубокой $\mathrm{ReLU}$-нейронной сети и сопутствующую терминологию. Пусть $d,L\in \mathbb N$, $L\geqslant 2$, $N_0=d$, $N_1,\dots,N_{L}\in \mathbb N$. Далее, пусть $\boldsymbol{W}^\ell=(w^\ell_{i,j})\in \mathbb R^{N_\ell\times (\sum_{i=1}^{\ell-1}N_i)}$, где $\ell=1,\dots,L$, – матрица размера $N_\ell\times (\sum_{i=1}^{\ell-1}N_i)$, и пусть $\boldsymbol{b}^\ell=(b^\ell_j)\in \mathbb R^{N_\ell}$. $\mathrm{ReLU}$-нейронная сеть $\Phi$ (на ${\mathbb R}^d$) с входной размерностью $d$, выходной размерностью $N_L$ и $L$ слоями определяется как последовательность матрично-векторных наборов

$$ \begin{equation*} \Phi=\bigl((\boldsymbol{W}^1,\boldsymbol{b}^1),\dots,(\boldsymbol{W}^L,\boldsymbol{b}^L)\bigr), \end{equation*} \notag $$

реализующая вычислительную схему

$$ \begin{equation*} \begin{aligned} \, \boldsymbol{z}^0&:=\boldsymbol{x} \in \mathbb R^d, \\ \boldsymbol{z}^\ell &:= \sigma(\boldsymbol{W}^{\ell}(\boldsymbol{z}^0,\dots,\boldsymbol{z}^{\ell-1})^{\mathrm T}+\boldsymbol{b}^\ell), \qquad\ell=1,\dots,L-1, \\ \boldsymbol{z}^L&:=\boldsymbol{W}^L(\boldsymbol{z}^0,\dots, \boldsymbol{z}^{L-1})^{\mathrm T}+\boldsymbol{b}^L. \end{aligned} \end{equation*} \notag $$

Вектор $\boldsymbol{z}^0$ называется входом; выход схемы $ \Phi$, который мы обозначаем через $\Phi(\boldsymbol{x}):=\boldsymbol{z}^L$ (допуская некоторую неоднозначности в обозначениях), – это $L$-мерная вектор-функция на ${\mathbb R}^d$. Иногда мы будем отождествлять $\mathrm{ReLU}$-нейронную сеть со своим выходом.

Ниже мы используем следующую терминологию:

– глубина сети $\Phi$ – число слоев $L(\Phi)=L$;

– число ненулевых $w^\ell_{i,j}$ и $b^\ell_j$ — это размер сети $\Phi$, обозначаемый через $W(\Phi)$;

– при $L(\Phi) \geqslant 3$ сеть $\Phi$ называется глубокой $\mathrm{ReLU}$-нейронной сетью, иначе – неглубокой $\mathrm{ReLU}$-нейронной сетью;

– если $\Phi(\boldsymbol{x})=(\phi_j(\boldsymbol{x}))_{j=1}^L$, то носитель $\bigcup_{j=1}^L \operatorname{supp}(\phi_j)$ глубокой $\mathrm{ReLU}$-нейронной сети $\Phi$ обозначается через $\operatorname{supp}(\Phi)$.

Для нейронных сетей определены две основные операции – параллелизация нескольких нейронных сетей и конкатенация двух нейронных сетей. В работе [32] (см. также [21], [47]) приведены подробные сведения об этих операциях, а также доказаны следующие две леммы.

Лемма 2.1 (о параллелизации). Пусть $N\in \mathbb N$, $\lambda_j\in \mathbb R$, $j=1,\dots,N$, и пусть $\Phi_j$, $j=1,\dots,N$ – глубокие $\mathrm{ReLU}$-нейронные сети с входной размерностью $d$. Тогда можно явно построить глубокую $\mathrm{ReLU}$-нейронную сеть $\Phi$ такую, что

$$ \begin{equation*} \Phi(\boldsymbol{x})=\sum_{j=1}^N\lambda_j \Phi_j(\boldsymbol{x}), \qquad \boldsymbol{x}\in \mathbb R^d. \end{equation*} \notag $$

Более того,

$$ \begin{equation*} W(\Phi) \leqslant \sum_{j=1}^N W(\Phi_j), \qquad L(\Phi)=\max_{j=1,\dots,N} L(\Phi_j). \end{equation*} \notag $$

Глубокая $\mathrm{ReLU}$-нейронная сеть $\Phi$ называется параллелизацией сетей $\Phi_j$, $j=1,\dots,N$.

Лемма 2.2 (о конкатенации). Пусть $\Phi_1$ и $\Phi_2$ – $\mathrm{ReLU}$-нейронные сети такие, что выходной слой сети $\Phi_1$ имеет ту же размерность, что и входной слой сети $\Phi_2$. Тогда можно явно построить $\mathrm{ReLU}$-нейронную сеть $\Phi$ такую, что $\Phi(\boldsymbol{x})=\Phi_2(\Phi_1(\boldsymbol{x}))$ при $\boldsymbol{x}\in \mathbb R^d$. Более того,

$$ \begin{equation*} W(\Phi)\leqslant 2W(\Phi_1)+2W(\Phi_2), \qquad L(\Phi)=L(\Phi_1)+L(\Phi_2). \end{equation*} \notag $$

Глубокая $\mathrm{ReLU}$-нейронная сеть $\Phi$ называется конкатенацией сетей $\Phi_1$ и $\Phi_2$.

Следующая лемма является непосредственным следствием предложения 3.3 работы [49].

Лемма 2.3. Пусть $\boldsymbol{\ell} \in {\mathbb N}^d$. Для любого $\delta \in (0,1)$ можно явно построить глубокую $\mathrm{ReLU}$-нейронную сеть $\Phi_P$ на ${\mathbb R}^d$ такую, что

$$ \begin{equation*} \sup_{ \boldsymbol{x} \in [-1,1]^d} \biggl|\prod_{j=1}^d x_j^{\ell_j}-\Phi_P(\boldsymbol{x}) \biggr| \leqslant \delta. \end{equation*} \notag $$

Более того, если $x_j=0$ при некотором $j\in \{1,\dots,d\}$, то $\Phi_P(\boldsymbol{x})=0$ и существует такая постоянная $C>0$, не зависящая от $\delta$, $d$ и $\boldsymbol{\ell}$, что

$$ \begin{equation*} W(\Phi_P) \leqslant C |\boldsymbol{\ell}|_1\ln (|\boldsymbol{\ell}|_1\delta^{-1}), \qquad L(\Phi_P) \leqslant C\ln |\boldsymbol{\ell}|_1\ln(|\boldsymbol{\ell}|_1\delta^{-1}). \end{equation*} \notag $$

Для $j=0,1$ пусть $\varphi_j$ – непрерывные кусочно линейные функции с точками излома $\{-2, -1,1,2\}$, для которых $\operatorname{supp}(\varphi_j) \subset [-2,2]$, $\varphi_0(x)=1$ и $\varphi_1(x)=x$ при $x\in [-1,1]$.

Лемма 2.4. Пусть $\boldsymbol{\ell} \in {\mathbb N}^d$, и пусть $\varphi$ – одна из функций $\varphi_0$ и $\varphi_1$. Тогда для каждого $\delta \in (0,1)$ можно явно построить глубокую $\mathrm{ReLU}$-нейронную сеть $\Phi$ на ${\mathbb R}^d$ такую, что

$$ \begin{equation*} \sup_{ \boldsymbol{x} \in [-2,2]^d} \biggl|\prod_{j=1}^d\varphi^{\ell_j}(x_j)- \Phi(\boldsymbol{x}) \biggr| \leqslant \delta. \end{equation*} \notag $$

Более того, $\operatorname{supp}(\Phi )\subset [-2,2]^d$ и существует такая постоянная $C>0$, не зависящая от $\delta$, $d$ и $\boldsymbol{\ell}$, что

$$ \begin{equation} W(\Phi) \leqslant C\bigl(1+ |\boldsymbol{\ell}|_1\ln (|\boldsymbol{\ell}|_1\delta^{-1}) \bigr), \qquad L(\Phi) \leqslant C\bigl(1+\ln |\boldsymbol{\ell}|_1\ln(|\boldsymbol{\ell}|_1\delta^{-1})\bigr). \end{equation} \tag{2.1} $$

Доказательство. Отметим явный вид $\varphi_j$ как функций активации выпрямленного линейного блока (ReLU):

$$ \begin{equation*} \begin{aligned} \, \varphi_0(x) &=\sigma(x-2)-3\sigma(x-1)+4\sigma(x)-3\sigma(x+1)+\sigma(x+2), \\ \varphi_1(x) &=\sigma(x-2)-2\sigma(x-1)+2\sigma(x+1) -\sigma(x+2). \end{aligned} \end{equation*} \notag $$

Отсюда следует, что $\varphi_j $ может быть точно реализована неглубокой $\mathrm{ReLU}$-нейронной сетью (также обозначаемой посредством $\varphi_j$) размера $W(\varphi_0)\leqslant 10$ и $W(\varphi_1)\leqslant 8$. Сеть $\Phi$ можно построить как конкатенацию глубоких $\mathrm{ReLU}$-нейронных сетей $\{\varphi(x_j)\}_{j=1}^d$ и сети $\Phi_P$. По определению глубокой $\mathrm{ReLU}$-нейронной сети и функции $\varphi$ имеем

$$ \begin{equation*} \boldsymbol{z}^1=\{\varphi(x_j)\}_{j=1}^d \subset [-1,1]^d. \end{equation*} \notag $$

Как следствие, оценки (2.1) непосредственно вытекают из лемм 2.2 и 2.3. Лемма доказана.

§ 3. Аппроксимация глубокими $\mathrm{ReLU}$-нейронными сетями в пространствах Бохнера

В этом параграфе мы рассмотрим коллокационные методы аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями функций из пространств Бохнера, построенных по гильбертову пространству $X$ и тензорным стандартным гауссовским вероятностным мерам $\gamma$. У аппроксимируемых функций коэффициенты эрмитова ОПРХ суммируемы в пространстве $\ell_2$ с весом (см. предположение (I) ниже). Аппроксимация основана на разреженной сеточной лагранжевой ОПРХ-интерполяции. Мы строим такие методы аппроксимации и устанавливаем скорость сходимости соответствующих аппроксимаций. Полученные в этом параграфе результаты будут применены в следующем параграфе к задачам коллокационной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями решений параметрических эллиптических УрЧП c логнормальными входами.

3.1. Тензорные гауссовские меры и пространства Бохнера

Пусть $\gamma(y)$ – стандартная гауссовская вероятностная мера на $\mathbb R$ с плотностью

$$ \begin{equation} g(y):=\frac 1 {\sqrt{2\pi}} e^{-y^2/2}, \quad\text{т.e. } \ \mathrm d\gamma(y):=g(y)\,\mathrm d y . \end{equation} \tag{3.1} $$

Для $M \in \mathbb N$ стандартная гауссовская вероятностная мера $\gamma(\boldsymbol{y})$ на ${\mathbb R}^M$ может быть определена следующим образом:

$$ \begin{equation*} \mathrm d \gamma(\boldsymbol{y}) := g_M(\boldsymbol{y}) \mathrm d (\boldsymbol{y})=\bigotimes_{j=1}^M g(y_j) \mathrm d (y_j), \qquad \boldsymbol{y}=(y_j)_{j=1}^M \in {\mathbb R}^M, \end{equation*} \notag $$

где $g_M(\boldsymbol{y}) := \bigotimes_{j=1}^M g(y_j)$.

Далее напомним, что стандартная гауссовская вероятностная мера $\gamma(\boldsymbol{y})$ на пространстве ${\mathbb R}^\infty$ определяется как бесконечное тензорное произведение стандартных гауссовских вероятностных мер $\gamma(y_i)$:

$$ \begin{equation*} \gamma(\boldsymbol{y}):= \bigotimes_{j \in \mathbb N} \gamma(y_j) , \qquad \boldsymbol{y}=(y_j)_{j \in \mathbb N} \in {\mathbb R}^\infty. \end{equation*} \notag $$

Сигма-алгебра, соответствующая $\gamma(\boldsymbol{y})$, порождена множеством цилиндров $A:= \prod_{j \in \mathbb N} A_j$, где $A_j \subset \mathbb R$ – одномерные $\gamma$-измеримые множества, причем только конечное число множеств $A_i$ среди них отличны от $\mathbb R$. Для такого множества $A$ имеем $\gamma(A)=\prod_{j \in \mathbb N} \gamma(A_j)$. (По поводу бесконечных тензорных произведений вероятностных мер см., например, [35; с. 429–435].)

Ниже под $J$ мы будем понимать или $\infty$, или $M \in \mathbb N$; мы также полагаем

$$ \begin{equation} U := \begin{cases} {\mathbb R}^M&\text{при }J=M, \\ {\mathbb R}^\infty&\text{при }J=\infty. \end{cases} \end{equation} \tag{3.2} $$

Если $X$ – сепарабельное гильбертово пространство, то по стандартной гауссовской вероятностной мере $\gamma$ на пространстве $U$ определяется пространство Бохнера $L_2(U,X,\gamma)$ $\gamma$-измеримых отображений $v$ из $U$ в $X$, снабженное нормой

$$ \begin{equation} \|v\|_{L_2(U,X,\gamma)} := \biggl(\int_{U} \|v(\cdot,\boldsymbol{y})\|_X^2 \, \mathrm d \gamma(\boldsymbol{y}) \biggr)^{1/2}. \end{equation} \tag{3.3} $$

Для $\gamma$-измеримого подмножества $\Omega$ из $U$ пространства $L_2(\Omega,X,\gamma)$ и $L_2(\Omega,\gamma)$ определяются стандартным образом.

В случае, когда $U={\mathbb R}^M$ мы также вводим пространство $L_{\infty}^{\sqrt{g}}({\mathbb R}^M,X)$, которое определяется как множество всех строго $\gamma$-измеримых функций $v\colon{\mathbb R}^M \to X$ с конечной $\sqrt{g_M}$-весовой равномерной нормой

$$ \begin{equation} \|v\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M,X)} :=\operatorname*{ess\,sup}_{\boldsymbol{y} \in {\mathbb R}^M} \Bigl(\|v(\boldsymbol{y})\|_X \sqrt{g_M(\boldsymbol{y})} \Bigr) . \end{equation} \tag{3.4} $$

В связи с вопросом определения бесконечномерного варианта этого пространства отметим, что, к сожалению, мы не можем дать корректного определения пространства $L_{\infty}^{\sqrt{g}}( {\mathbb R}^\infty,X)$, поскольку в этом случае у нас нет бесконечномерного аналога веса $g_M$. Однако при некоторых предположениях (см. предположение (I) ниже) можно получить некоторые результаты по аппроксимации, не зависящие от $M$ (и, в частности, верные при очень больших $M$). Положим для краткости $L_{\infty}^{\sqrt{g}}({\mathbb R}^M)=L_{\infty}^{\sqrt{g}}({\mathbb R}^M,\mathbb R)$ и $L_{\infty}^{\sqrt{g}}(\mathbb R)=L_{\infty}^{\sqrt{g}}(\mathbb R,\mathbb R)$.

В этом параграфе мы рассмотрим задачу аппроксимации функций из пространств $L_2({\mathbb R}^\infty, X, \gamma)$ и $L_2({\mathbb R}^M, X, \gamma)$ глубокими $\mathrm{ReLU}$-нейронными сетями, в которой погрешность аппроксимации измеряется в норме пространства $L_2({\mathbb R}^\infty, X, \gamma)$ или пространства $L_\infty^{\sqrt{g}}({\mathbb R}^M,X)$ соответственно. (Отметим, что такие нормы оказываются наиболее важными при оценке погрешности коллокационной аппроксимации решений параметрических и стохастических УрЧП.) Для нас будет удобно объединить эти различные задачи аппроксимации в единую задачу. Ниже для этой цели мы будем использовать следующие обозначения:

$$ \begin{equation} \mathcal L(U,X) :=\begin{cases} L_{\infty}^{\sqrt{g}}( {\mathbb R}^M,X),&\text{если }U={\mathbb R}^M, \\ L_2({\mathbb R}^\infty,X,\gamma),&\text{если } U={\mathbb R}^\infty, \end{cases} \end{equation} \tag{3.5} $$

$$ \begin{equation} \mathcal F :=\begin{cases} {\mathbb N}_0^M, &\text{если } U={\mathbb R}^M, \\ \mathbb F, &\text{если } U={\mathbb R}^\infty, \end{cases} \end{equation} \tag{3.6} $$

$$ \begin{equation} \mathcal N :=\begin{cases} \{1, \dotsc, M\}, &\text{если } U={\mathbb R}^M, \\ \mathbb N, &\text{если } U={\mathbb R}^\infty. \end{cases} \end{equation} \tag{3.7} $$

Здесь $\mathbb F$ – множество всех последовательностей неотрицательных целых чисел $\boldsymbol{s}=(s_j)_{j \in \mathbb N}$ с конечным носителем $\operatorname{supp} (\boldsymbol{s}):=\{j \in \mathbb N\colon s_j >0\}$.

Пусть $(H_k)_{k \in \mathbb N_0}$ – полиномы Эрмита с нормировкой $\displaystyle\int_{\mathbb R} | H_k(y)|^2g(y)\,\mathrm d y=1$. Тогда функцию $v \in L_2(U,X,\gamma)$ можно представить эрмитовым ОПРХ

$$ \begin{equation} v(\boldsymbol{y})=\sum_{\boldsymbol{s}\in\mathcal F} v_{\boldsymbol{s}} H_{\boldsymbol{s}}(\boldsymbol{y}), \qquad v_{\boldsymbol{s}} \in X, \end{equation} \tag{3.8} $$

где

$$ \begin{equation} H_{\boldsymbol{s}}(\boldsymbol{y})=\bigotimes_{j \in \mathcal N}H_{s_j}(y_j), \quad v_{\boldsymbol{s}}:=\int_U v(\boldsymbol{y})H_{\boldsymbol{s}}(\boldsymbol{y})\, \mathrm d\gamma (\boldsymbol{y}), \qquad \boldsymbol{s} \in \mathcal F. \end{equation} \tag{3.9} $$

Отметим, что $(H_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$ — ортонормированный базис пространства $L_2(U,\gamma):=L_2(U,\mathbb R, \gamma)$. Более того, для любой функции $v \in L_2(U,X,\gamma)$, представимой рядом (3.8), имеет место равенство Парсеваля

$$ \begin{equation*} \|v\|_{L_2(U,X,\gamma)}^2= \sum_{\boldsymbol{s}\in\mathcal F} \|v_{\boldsymbol{s}}\|_X^2. \end{equation*} \notag $$

Для $\boldsymbol{s}, \boldsymbol{s}' \in \mathcal F$ неравенство $\boldsymbol{s}' \leqslant \boldsymbol{s}$ означает, что $s_j' \leqslant s_j$, $j \in \mathcal N$. Множество $\boldsymbol{\sigma}=(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$, где $\sigma_{\boldsymbol{s}} \in \mathbb R$, называется возрастающим, если $\sigma_{\boldsymbol{s}'} \leqslant \sigma_{\boldsymbol{s}}$ при $\boldsymbol{s}' \leqslant \boldsymbol{s}$.

Предположение (I). Для представимой рядом (3.8) функции $v{\kern0.8pt}{\in}{\kern0.6pt} L_2(U,X,\gamma)$ существует возрастающее множество $\boldsymbol{\sigma}=(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$ положительных чисел таких, что при некотором $q$, $0< q < 2$, имеет место оценка

$$ \begin{equation} \biggl(\sum_{\boldsymbol{s}\in\mathcal F} (\sigma_{\boldsymbol{s}} \|v_{\boldsymbol{s}}\|_{X})^2\biggr)^{1/2} \leqslant C_1 <\infty, \qquad \|{\boldsymbol{\sigma}^{-1}} \|_{\ell_q(\mathcal F)} \leqslant C_2 < \infty, \end{equation} \tag{3.10} $$

где постоянные $C_1$ и $C_2$ не зависят от $J$.

Здесь и ниже выражение “не зависит от $J$” означает, что постоянные $C_1$ и $C_2$ (равно, как и другие постоянные) не зависят от $M$ при $J=M$, поскольку мы заинтересованы в скорости сходимости и других асимптотических свойствах, не зависящих от $M$ и основанных на предположении (I).

Лемма 3.1. Для $v \in L_2(U,X,\gamma)$, удовлетворяющих предположению (I), ряд (3.8) сходится безусловно к $v$ в пространстве $\mathcal L(U,X)$; при этом

$$ \begin{equation} \sum_{\boldsymbol{s}\in\mathcal F} \|v_{\boldsymbol{s}}\|_{X} \leqslant C <\infty, \end{equation} \tag{3.11} $$

где постоянная $C$ не зависит от $J$.

Доказательство. Применяя неравенство Гёльдера и используя предположение (I), получаем

$$ \begin{equation*} \sum_{\boldsymbol{s}\in\mathcal F} \|v_{\boldsymbol{s}}\|_{X} \leqslant \biggl( \sum_{\boldsymbol{s}\in \mathcal F} (\sigma_{\boldsymbol{s}} \|v_{\boldsymbol{s}}\|_{X})^2\biggr)^{1/2} \biggl(\sum_{\boldsymbol{s}\in \mathcal F} \sigma_{\boldsymbol{s}}^{-2} \biggr)^{1/2} \leqslant C\|\boldsymbol{\sigma}^{-1}\|_{\ell_q(\mathcal F)} <\infty, \end{equation*} \notag $$

что доказывает (3.11). Отсюда, используя равенство $\|H_{\boldsymbol{s}}\|_{L_2({\mathbb R}^\infty)}=1$ при $\boldsymbol{s} \in \mathbb F$, а также неравенство $\| H_{\boldsymbol{s}}\|_{L_\infty^{\sqrt{g}}({\mathbb R}^\infty)} < 1$ при $\boldsymbol{s} \in \mathbb N_0^M$ (которое вытекает из формулы (5.7)), мы получаем абсолютную сходимость ряда (3.8) в гильбертовом пространстве $L_2(U,X,\gamma)$. Как следствие, этот ряд сходится безусловно к функции $v \in L_2(U,X,\gamma)$, поскольку по равенству Парсеваля он заведомо сходится к $v$ в норме пространства $L_2(U,X,\gamma)$. Лемма доказана.

3.2. Разреженная сеточная лагранжева ОПРХ-интерполяция

Для каждого $m \in \mathbb N_0$ пусть $Y_m=(y_{m;k})_{k \in \pi_m}$ – упорядоченный по возрастанию набор из $m+1$ корня полинома Эрмита $H_{m+1}$, т.е.

$$ \begin{equation*} \begin{gathered} \, y_{m,-j} < \dots < y_{m,-1} < y_{m,0}=0 < y_{m,1} < \dots < y_{m,j} \quad \text{при } \ m=2j, \\ y_{m,-j} < \dots < y_{m,-1} < y_{m,1} < \dots < y_{m,j} \quad \text{при } \ m=2j-1, \end{gathered} \end{equation*} \notag $$

где

$$ \begin{equation*} \pi_m:=\begin{cases} \{-j,-j+1, \dots, -1, 0, 1, \dots ,j-1,j \} &\text{при }m=2j, \\ \{-j,-j+1, \dots, -1, 1, \dots, j-1,j \}&\text{при }m=2j-1 \end{cases} \end{equation*} \notag $$

(в частности, $Y_0=(y_{0;0})$, где $y_{0;0}=0$).

Для заданной на $\mathbb R$ функции $v$ со значениями в гильбертовом пространстве $X$ и числа $m \in \mathbb N_0$ определим оператор лагранжевой интерполяции $I_m$ по формуле

$$ \begin{equation} I_m(v):= \sum_{k\in \pi_m} v(y_{m;k}) L_{m;k}, \quad\text{где }\ L_{m;k}(y) :=\prod_{j \in \pi_m,\,j\ne k}\frac{y-y_{m;j}}{y_{n;k}-y_{m;j}} \end{equation} \tag{3.12} $$

(в частности, $I_0(v)=v(y_{0,0})L_{0,0}(y)=v(0)$ и $L_{0,0}(y)=1$). Отметим, что $I_m(v)$ – функция на $\mathbb R$ со значениями в $X$, интерполирующая функцию $v$ в точках $y_{m;k}$, т.e. $I_m(v)(y_{m;k})=v(y_{m;k})$. Более того, для функции $v\colon \mathbb R \to \mathbb R$ функция $I_m(v)$ является полином Лагранжа степени $\leqslant m$, при этом $I_m(\varphi)=\varphi$ для любого полинома $\varphi$ степени $\leqslant m$.

Рассмотрим константу Лебега

$$ \begin{equation} \lambda_m:= \sup_{\|v\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \leqslant 1} \|I_m(v)\|_{L_\infty^{\sqrt{g}}(\mathbb R)}. \end{equation} \tag{3.13} $$

В [40], [41], [54] доказано, что

$$ \begin{equation*} \lambda_m \leqslant C(m+1)^{1/6}, \qquad m \in \mathbb N, \end{equation*} \notag $$

с некоторой положительной постоянной $C$, не зависящей от $m$ (отметим, что неравенство $\lambda_0(Y_0) \leqslant 1$ очевидно). Как следствие, для любого $\varepsilon > 0$ существует положительная постоянная $C_\varepsilon \geqslant 1$, не зависящая от $m$, такая, что

$$ \begin{equation} \lambda_m \leqslant (1+C_\varepsilon m)^{1/6+\varepsilon} \quad \forall\, m \in \mathbb N_0. \end{equation} \tag{3.14} $$

Определим одномерный оператор $\Delta_m$, $m \in \mathbb N_0$, формулой

$$ \begin{equation*} \Delta_m := I_m-I_{m-1}, \end{equation*} \notag $$

где мы полагаем по определению $I_{-1}=0$.

Лемма 3.2. Для любого $\varepsilon > 0$ существует такая положительная постоянная $C_\varepsilon$, не зависящая от $m$, что для любой функции $v$ на $\mathbb R$ имеет место оценка

$$ \begin{equation} \|\Delta_m(v)\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \leqslant (1+C_\varepsilon m)^{1/6+\varepsilon} \|v\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \quad \forall\, m \in \mathbb N_0 \end{equation} \tag{3.15} $$

при условии, что норма в правой части конечна.

Доказательство. По предположению

$$ \begin{equation*} \|\Delta_m(v)\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \leqslant 2C(1+m)^{1/6} \|v\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \quad \forall\, m \in \mathbb N_0, \end{equation*} \notag $$

что влечет (3.15). Лемма доказана.

В качестве промежуточной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями функций $v \in L_2(U,X,\gamma)$ мы будем использовать разреженную сеточную лагранжеву ОПРХ-интерполяцию. Для корректного определения интерполяционного оператора нам нужно наложить некоторые ограничения на функции $v$. Пусть $\mathcal E$ – такое $\gamma$-измеримое подмножество $U$, что $\gamma(\mathcal E)=1$ и в случае, когда $U={\mathbb R}^\infty$, $\mathcal E$ содержит все векторы $\boldsymbol{y} \in U$ с $|\boldsymbol{y}|_0 < \infty$, где $|\boldsymbol{y}|_0$ – число ненулевых компонент $y_j$ у вектора $\boldsymbol{y}$. Для заданного множества $\mathcal E$ и гильбертова пространства $X$ через $L_2^\mathcal E(U,X,\gamma)$ обозначим подпространство из $L_2(U,X,\gamma)$, состоящее из всех элементов $v$ таких, что значение $v(\boldsymbol{y})$ (представителя функции $v$) корректно определено при всех $\boldsymbol{y} \in \mathcal E$. Ниже мы будем предполагать, что множество $\mathcal E$ фиксировано.

Для функции $v \in L_2^\mathcal E(U,X,\gamma)$ рассмотрим оператор тензорного произведения $\Delta_{\boldsymbol{s}}$, $\boldsymbol{s} \in \mathcal F$, определяемый формулой

$$ \begin{equation} \Delta_{\boldsymbol{s}}(v) :=\bigotimes_{j \in \mathcal N} \Delta_{s_j}(v), \end{equation} \tag{3.16} $$

где одномерный оператор $\Delta_{s_j}$ последовательно применяется к скалярной функции $\bigotimes_{i<j} \Delta_{s_i}(v)$, рассматриваемой как функция переменной $y_j$ с фиксированными остальными переменными. Из определения $L_2^\mathcal E(U,X,\gamma)$ вытекает, что операторы $\Delta_{\boldsymbol{s}}$ корректно определены при всех $\boldsymbol{s} \in \mathcal F$. Для $\boldsymbol{s} \in \mathcal F$ положим

$$ \begin{equation*} I_{\boldsymbol{s}}(v) :=\bigotimes_{j \in \mathcal N} I_{s_j}(v), \qquad L_{\boldsymbol{s};\boldsymbol{k}} :=\bigotimes_{j \in \mathcal N} L_{s_j;k_j}, \qquad \pi_{\boldsymbol{s}} :=\prod_{j \in \mathcal N} \pi_{s_j} \end{equation*} \notag $$

(функция $I_{\boldsymbol{s}}(v)$ определяется точно так же, как $\Delta_{\boldsymbol{s}}(v)$).

Для $\boldsymbol{s} \in \mathcal F$ и $\boldsymbol{k} \in \pi_{\boldsymbol{s}}$ через $E_{\boldsymbol{s}}$ обозначим подмножество всех элементов $\boldsymbol{e}\in \mathcal F$ таких, что $e_j$ равно $1$ или $0$ при $s_j > 0$ и $e_j=0$ при $s_j=0$. Мы также определим $\boldsymbol{y}_{\boldsymbol{s};\boldsymbol{k}}:=(y_{s_j;k_j})_{j \in \mathcal N} \in U$ и положим $|\boldsymbol{s}|_1 :=\sum_{j \in \mathcal N} s_j$ при $\boldsymbol{s} \in \mathcal F$. Несложно проверяется, что интерполяционный оператор $\Delta_{\boldsymbol{s}}$ можно представить в виде

$$ \begin{equation} \Delta_{\boldsymbol{s}}(v) =\sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} (-1)^{|\boldsymbol{e}|_1} I_{\boldsymbol{s}- \boldsymbol{e}} (v) =\sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} (-1)^{|\boldsymbol{e}|_1} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} v(\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}) L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}. \end{equation} \tag{3.17} $$

Для заданного конечного множества $\Lambda \subset \mathcal F$ рассмотрим ОПРХ-интерполяционный оператор $I_\Lambda$, задаваемый формулой

$$ \begin{equation} I_\Lambda :=\sum_{\boldsymbol{s} \in \Lambda} \Delta_{\boldsymbol{s}}. \end{equation} \tag{3.18} $$

Из (3.17) имеем

$$ \begin{equation} I_\Lambda(v)=\sum_{\boldsymbol{s} \in \Lambda} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} (-1)^{|\boldsymbol{e}|_1} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} v(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) L_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}. \end{equation} \tag{3.19} $$

Множество $\Lambda \subset \mathcal F$ называется замкнутым вниз (downward closed), если условие $\boldsymbol{s} \in \Lambda$ влечет, что $\boldsymbol{s}' \in \Lambda$ для любого $\boldsymbol{s}' \in \mathcal F$ такого, что $\boldsymbol{s}' \leqslant \boldsymbol{s}$.

Для $\theta, \lambda \geqslant 0$ определим множество $\boldsymbol{p}(\theta, \lambda):= (p_{\boldsymbol{s}}(\theta, \lambda))_{\boldsymbol{s} \in \mathcal F}$ по формуле

$$ \begin{equation} p_{\boldsymbol{s}}(\theta, \lambda) :=\prod_{j \in \mathcal N} (1+\lambda s_j)^\theta, \qquad \boldsymbol{s} \in \mathcal F, \end{equation} \tag{3.20} $$

где для краткости мы полагаем $p_{\boldsymbol{s}}(\theta):=p_{\boldsymbol{s}}(\theta, 1)$ и $\boldsymbol{p}(\theta):=\boldsymbol{p}(\theta, 1)$.

Пусть $0 < q < \infty$ и $\boldsymbol{\sigma}=(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$ – некоторое множество положительных чисел. Для $\xi >0$ рассмотрим множество

$$ \begin{equation} \Lambda(\xi):=\{\boldsymbol{s} \in \mathcal F\colon\sigma_{\boldsymbol{s}}^q \leqslant \xi\}. \end{equation} \tag{3.21} $$

Используя (3.19), оператор $I_{\Lambda(\xi)}$ можно представить в виде

$$ \begin{equation} I_{\Lambda(\xi)}(v) =\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} (-1)^{|\boldsymbol{e}|_1} v(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})L_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}, \end{equation} \tag{3.22} $$

где

$$ \begin{equation} G(\xi) := \{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in \mathcal F \times \mathcal F \times \mathcal F\colon\boldsymbol{s} \in \Lambda(\xi), \ \boldsymbol{e} \in E_{\boldsymbol{s}}, \ \boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}} \}. \end{equation} \tag{3.23} $$

Следующая теорема дает оценку на погрешность аппроксимации функции $v \in \mathcal L_2^\mathcal E(U,X,\gamma)$ при помощи разреженной сеточной лагранжевой ОПРХ-интерполяции $I_{\Lambda(\xi)} v$ на выбранных точках из множества $G(\xi)$. Эта оценка будет использована в следующем пункте в задаче аппроксимации глубокими $\mathrm{ReLU}$-сетями.

Теорема 3.1. Пусть функция $v \in \mathcal L_2^\mathcal E(U,X,\gamma)$ удовлетворяет предположению (I), и пусть $\varepsilon >0$ – фиксированное число. Предположим, что выполнено неравенство $\|\boldsymbol{p}(\theta/q,\lambda)\boldsymbol{\sigma}^{-1}\|_{\ell_q(\mathcal F)} \leqslant C < \infty$, где $\theta=7/3+2\varepsilon$, $\lambda:=C_\varepsilon$ – постоянная из леммы 3.2, и постоянная $C$ не зависит от $J$. Тогда для любого $\xi > 1$ имеет место оценка

$$ \begin{equation} \|v -I_{\Lambda(\xi)}v\|_{\mathcal L(U,X)} \leqslant C\xi^{-(1/q-1/2)}, \end{equation} \tag{3.24} $$

где постоянная $C$ в (3.24) не зависит от $J$, $v$ и $\xi$.

Доказательство этой теоремы дается в п. 5.2.

Следствие 3.1. В условиях теоремы 3.1 для каждого $n > 1$ можно построить такую последовательность точек $Y_{\Lambda(\xi_n)}:= (\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)}$, что $|G(\xi_n)| \leqslant n$ и

$$ \begin{equation} \|v -I_{\Lambda(\xi_n)}v\|_{\mathcal L(U,X)} \leqslant Cn^{-(1/q-1/2)}, \end{equation} \tag{3.25} $$

где постоянная $C$ в (3.25) не зависит от $J$, $v$ и $n$.

Доказательство. Отметим, что в случае $U={\mathbb R}^\infty$ это утверждение было доказано в следствии 3.1 работы [15]. По лемме 5.2 имеем $|G(\xi)| \leqslant C_q \xi$ для любого $\xi > 1$. Поэтому требуемое утверждение вытекает из теоремы 3.1, если в качестве $\xi_n$ взять максимальное число, удовлетворяющее неравенству $|G(\xi_n)| \leqslant n$.

3.3. Аппроксимация глубокими $\mathrm{ReLU}$-нейронными сетями

В этом пункте мы построим глубокие $\mathrm{ReLU}$-нейронные сети для коллокационной аппроксимации функций $v \in L_2(U,X,\gamma)$. С этой целью мы предварительно аппроксимируем функцию $v$ при помощи разреженной сеточной лагранжевой ОПРХ-интерполяции $I_{\Lambda(\xi)} v$. По п. (iii) леммы 5.1 интерполянт $I_{\Lambda(\xi)} v $ можно рассматривать как функцию на ${\mathbb R}^m$, где $m :=\min\{M,\lfloor K_q \xi \rfloor\}$. На следующем шаге мы аппроксимируем $I_{\Lambda(\xi)} v $ ее срезками $I_{\Lambda(\xi)}^{\omega}v$ на достаточно большом суперкубе

$$ \begin{equation} B^m_\omega :=[-2\sqrt{\omega}, 2\sqrt{\omega}]^m \subset \mathbb R^m \end{equation} \tag{3.26} $$

при подходящем выборе параметра $\omega$, зависящего от $\xi$. На заключительном шаге срезка $I_{\Lambda(\xi)}^{\omega}v$ и, как следствие, функция $v$ аппроксимируются функцией $\Phi_{\Lambda(\xi)}v $ на ${\mathbb R}^m$, которая строится по глубокой $\mathrm{ReLU}$-нейронной сети. Опишем эту конструкцию.

Для удобства мы будем рассматривать $\mathbb R^m$ как подмножество множества векторов $\boldsymbol{y} \in U$ таких, что $y_j=0$ при $j > m$. Если $f$ – функция на ${\mathbb R}^m$ со значениями в гильбертовом пространстве $X$, то $f$ можно распространить на $\mathbb R^{m'}$ при $m' > m$ и на вcе множество $U$ по формуле $f(\boldsymbol{y})=f ( (y_j)_{j=0}^m)$ при $\boldsymbol{y}=(y_j)_{j=1}^{m'}$ и $\boldsymbol{y}= (y_j)_{j \in \mathcal N}$ соответственно. Полученные продолжения также будут обозначаться буквой $f$.

Предположим, что глубокие $\mathrm{ReLU}$-нейронные сети $\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}$ на $\mathbb R^{|{\operatorname{supp}(\boldsymbol{s})}|}$ для аппроксимации полиномов $L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$, $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$ уже построены. Тогда с помощью полученной параллелизацией сети $\boldsymbol{\phi}_{\Lambda(\xi)}:= (\phi_{\boldsymbol{s}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}$ на $\mathbb R^m$ c $|G(\xi)|$ выходами строится аппроксимация срезки $I_{\Lambda(\xi)}^{\omega}v$, и, следовательно, аппроксимация для $v$. Именно, функция $v$ аппроксимируется конструкцией

$$ \begin{equation} \Phi_{\Lambda(\xi)}v (\boldsymbol{y}) :=\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} (-1)^{|\boldsymbol{e}|_1} v(\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}} (\boldsymbol{y}). \end{equation} \tag{3.27} $$

Со множеством $\Lambda(\xi)$ мы свяжем следующие числа:

$$ \begin{equation} m_1(\xi) :=\max_{\boldsymbol{s} \in \Lambda(\xi)} |\boldsymbol{s}|_1, \end{equation} \tag{3.28} $$

$$ \begin{equation} m(\xi) :=\max\bigl\{j \in \mathcal N\colon \exists\, \boldsymbol{s} \in \Lambda(\xi) \ \text{такое, что} \ s_j > 0 \bigr\}. \end{equation} \tag{3.29} $$

В этом параграфе будут доказаны основные результаты настоящей работы по аппроксимации функций $v \in L_2^\mathcal E(U,X,\gamma)$ глубокими $\mathrm{ReLU}$-нейронными сетями с погрешностью, измеряемой в норме пространства $L_2({\mathbb R}^\infty,X,\gamma)$ или $L_\infty^{\sqrt{g}}({\mathbb R}^M,X)$. Полученные результаты даются в сводном виде в следующей теореме.

Ниже через $\boldsymbol{e}^i=(e^i_j)_{j \in \mathcal N}\in \mathcal F$ мы обозначим элемент такой, что $e^i_i=1$ и $e^i_j=0$ при $j \ne i$.

Теорема 3.2. Пусть функция $v \in L_2^\mathcal E(U,X,\gamma)$ удовлетворяет предположению (I) и число $\theta \geqslant 3/q$ произвольно. Предположим, что множество $\boldsymbol{\sigma}=(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$ из предположения (I) таково, что $\sigma_{\boldsymbol{e}^{i'}} \leqslant \sigma_{\boldsymbol{e}^i}$ при $i'< i$ и $\| \boldsymbol{p}(\theta)\boldsymbol{\sigma}^{-1} \|_{\ell_q(\mathcal F)} \leqslant C < \infty$, где постоянная $C$ не зависит от $J$. Пусть, далее, $K_q$, $K_{q,\theta}$ и $C_q$ – постоянные из лемм 5.1 и 5.2. Тогда для любого $\xi > 2$ можно построить глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_{\Lambda(\xi)}:=(\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}$ на $\mathbb R^m$, где

$$ \begin{equation*} m :=\begin{cases} \min\{M,\lfloor K_q \xi \rfloor\},&\textit{если } U={\mathbb R}^M, \\ \lfloor K_q \xi \rfloor,&\textit{если }U={\mathbb R}^\infty, \end{cases} \end{equation*} \notag $$

и последовательность точек $Y_{\Lambda(\xi)}:=(\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}$ со следующими свойствами:

(i) сеть $\boldsymbol{\phi}_{\Lambda(\xi)}$ и последовательность точек $Y_{\Lambda(\xi)}$ не зависят от $v$;

(ii) выходная размерность $\boldsymbol{\phi}_{\Lambda(\xi)}$ не превосходит $\lfloor C_q \xi \rfloor$;

(iii) $W(\boldsymbol{\phi}_{\Lambda(\xi)}) \leqslant C \xi^{1+2/(\theta q)} \ln \xi$;

(iv) $L(\boldsymbol{\phi}_{\Lambda(\xi)}) \leqslant C \xi^{1/(\theta q)} (\ln \xi)^2$;

(v) компоненты $\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$, $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$, сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ являются глубокими $\mathrm{ReLU}$-нейронными сетями на $\mathbb R^{|{\operatorname{supp}(\boldsymbol{s})}|}$ с ${|{\operatorname{supp}(\boldsymbol{s})}|} \leqslant K_{q,\theta} \xi^{1/(\theta q) }$ с носителями в суперкубе $[-T,T]^{|{\operatorname{supp}(\boldsymbol{s})}|}$, где $T:=4\sqrt{\lfloor K_{q,\theta} \xi \rfloor}$;

(vi) погрешность аппроксимации функции $v$ функцией $\Phi_{\Lambda(\xi)}v$ оценивается следующим образом:

$$ \begin{equation} \| v- \Phi_{\Lambda(\xi)}v \|_{\mathcal L(U,X)}\leqslant C\xi^{-(1/q-1/2)}. \end{equation} \tag{3.30} $$

В утверждениях (iii)–(vi) постоянные $C$ не зависят от $J$, $v$ и $\xi$.

Кратко наметим план доказательства этой теоремы. Подробное доказательство будет дано в случае $U={\mathbb R}^\infty$; случай $U={\mathbb R}^M$ доказывается аналогично с небольшими модификациями.

Ниже в этом пункте все определения, формулы и утверждения даются для $U={\mathbb R}^\infty$, при этом при $\xi >1$ буквы $m$ и $\omega$ будут использоваться только как обозначения

$$ \begin{equation} m :=\lfloor K_q\xi \rfloor, \qquad \omega :=\lfloor {K_{q,\theta}}\xi \rfloor, \end{equation} \tag{3.31} $$

где $K_q$ и $K_{q,\theta}$ – постоянные из леммы 5.1. Как было упомянуто выше, мы предварительно аппроксимируем функцию $v \in L_2({\mathbb R}^\infty,X,\gamma)$ при помощи ОПРХ-интерполянта $I_{\Lambda(\xi)} v$. На следующем шаге $I_{\Lambda(\xi)} v $ аппроксимируется срезкой $I_{\Lambda(\xi)}^{\omega}v$ на суперкубе $ B^m_\omega$, которую мы построим ниже. На заключительном шаге мы строим глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_{\Lambda(\xi)}:= (\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}$, с помощью которой срезка $I_{\Lambda(\xi)}^{\omega}v$ аппроксимируется конструкциями $\Phi_{\Lambda(\xi)}v$ вида (3.27).

Для заданной на $\mathbb R$ функции $\varphi$ через $\varphi^{\omega}$ мы обозначим срезку $\varphi$ на $B^1_\omega$, т.e.

$$ \begin{equation} \varphi^{\omega}(y) :=\begin{cases} \varphi(y) & \text{при } y \in B^1_\omega, \\ 0 & \text{в других случаях}. \end{cases} \end{equation} \tag{3.32} $$

В случае $\operatorname{supp} (\boldsymbol{s}) \subset \{1, \dotsc, m\}$ положим

$$ \begin{equation*} L_{\boldsymbol{s},\boldsymbol{k}}^{\omega}(\boldsymbol{y}) :=\prod_{j=1}^m L_{s_j;k_j}^{\omega}(y_j),\qquad \boldsymbol{y}\in \mathbb R^m. \end{equation*} \notag $$

При $ \boldsymbol{y}\in B^m_\omega $ имеем $ L_{\boldsymbol{s},\boldsymbol{k}}^{\omega}(\boldsymbol{y})=\prod_{j=1}^m L_{s_j;k_j}(y_j) $; в противном случае $L_{\boldsymbol{s},\boldsymbol{k}}^{\omega}(\boldsymbol{y})=0$. Для функции $v \in L_2^\mathcal E({\mathbb R}^\infty,X,\gamma)$ положим

$$ \begin{equation} I_{\Lambda(\xi)}^\omega(v) :=\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}(-1)^{|\boldsymbol{e}|_1} v(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}^\omega. \end{equation} \tag{3.33} $$

Пусть выполнены условия теоремы 3.2. По лемме 5.1, (iii) для любого $\xi >2$ имеем $m(\xi) \leqslant m$. Как следствие, для любого $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$, полиномы $L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$, $L_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}^\omega$ и, следовательно, $I_{\Lambda(\xi)}v $ и $I_{\Lambda(\xi)}^{\omega} v$ можно рассматривать, как функции на ${\mathbb R}^m$. Для $g \in L_2({\mathbb R}^m,X,\gamma)$ имеем $\|g\|_{L_2({\mathbb R}^m,X,\gamma)}=\|g\|_{L_2({\mathbb R}^\infty,X,\gamma)}$ (где мы рассматриваем продолжение функции $g$). Эти факты будут ниже использоваться без специальных пояснений.

Для доказательства теоремы 3.2 мы воспользуемся промежуточной аппроксимацией для оценки погрешности аппроксимации в (3.30). Предположим, что мы уже построили глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_{\Lambda(\xi)}$ и, следовательно, функцию $\Phi_{\Lambda(\xi)}$. По неравенству треугольника имеем

$$ \begin{equation} \begin{aligned} \, \notag &\|v- \Phi_{\Lambda(\xi)} v\|_{L_2({\mathbb R}^\infty,X,\gamma)} \leqslant \|v-I_{\Lambda(\xi)}v \|_{L_2({\mathbb R}^\infty,X,\gamma)} + \|I_{\Lambda(\xi)}v-I_{\Lambda(\xi)}^{\omega}v\|_{{L_2({\mathbb R}^m \setminus B^m_\omega,X,\gamma)}} \\ &\qquad\qquad + \| I_{\Lambda(\xi)}^{\omega}v- \Phi_{\Lambda(\xi)} v\|_{L_2(B^m_\omega,X,\gamma)} + \| \Phi_{\Lambda(\xi)} v \|_{L_2({\mathbb R}^m \setminus B^m_\omega,X,\gamma)}. \end{aligned} \end{equation} \tag{3.34} $$

Таким образом, требуемая оценка (3.30) будет получена, если для каждого из четырех членов в правой части неравенства (3.34) будет получена оценка сверху вида $C\xi^{-(1/q-1/2)}$. Первый член оценивается точно так же, как в теореме 3.1. Остальные три члена оцениваются в следующих леммах 3.3–3.5. Для завершения доказательства теоремы 3.2 нам также потребуется оценить размер и глубину сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ (утверждения (iii) и (iv) теоремы) — мы сделаем это в лемме 3.6.

Для функций $v \in L_2^\mathcal E({\mathbb R}^\infty,X,\gamma)$, удовлетворяющих предположению (I), по лемме 3.1 ряд (3.8) сходится к функции $v$ безусловно в $L_2({\mathbb R}^\infty,X,\gamma)$. Значит, формулу (3.19) для $\Lambda=\Lambda(\xi)$ можно переписать в виде

$$ \begin{equation} I_{\Lambda(\xi)}(v) =\sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F}v_{\boldsymbol{s}'} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} (-1)^{|\boldsymbol{e}|_1} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}. \end{equation} \tag{3.35} $$

Как следствие, по определению (3.33) имеем

$$ \begin{equation} I_{\Lambda(\xi)}^\omega(v) =\sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F}v_{\boldsymbol{s}'} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} (-1)^{|\boldsymbol{e}|_1} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}^\omega. \end{equation} \tag{3.36} $$

Лемма 3.3. В условиях теоремы 3.2 для любого $\xi > 1$ имеем

$$ \begin{equation} \|I_{\Lambda(\xi)}v-I_{\Lambda(\xi)}^{\omega} v\|_{L_2({\mathbb R}^\infty,X,\gamma)} \leqslant C\xi^{-(1/q-1/2)}, \end{equation} \tag{3.37} $$

где постоянная $C$ не зависит от $v$ и $\xi$.

Доказательство. Используя равенство

$$ \begin{equation*} \| L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}-L_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}^\omega\|_{L_2({\mathbb R}^\infty,\gamma)} =\| L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k} }\|_{L_2(\mathbb R^m\setminus B^m_\omega,\gamma)} \quad \forall\, (\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi) \end{equation*} \notag $$

и неравенство треугольника и учитывая (3.35) и (3.36), получаем

$$ \begin{equation*} \begin{aligned} \, &\| I_{\Lambda(\xi)}v-I_{\Lambda(\xi)}^{\omega}v \|_{L_2({\mathbb R}^\infty,X,\gamma)} \\ &\qquad \leqslant \sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F} \|v_{\boldsymbol{s}'}\|_{X} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \|L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k} }\|_{L_2(\mathbb R^m\setminus B^m_\omega,\gamma)}. \end{aligned} \end{equation*} \notag $$

Для заданного $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$ имеем

$$ \begin{equation*} L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}} = \prod_{j=1}^m L_{s_j-e_j;k_j}(y_j), \qquad \boldsymbol{y} \in \mathbb R^m, \end{equation*} \notag $$

где $L_{s_j-e_j;k_j}$ — полином по переменной $y_j$ степени не больше $m_1(\xi) $. Применяя лемму 5.7 и учитывая (3.31), находим, что

$$ \begin{equation*} \|L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}} \|_{L_2(\mathbb R^m\setminus B^m_\omega,\gamma)} \leqslant C\xi e^{- K_1\xi} \| L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}} \|_{L_2(\mathbb R^m,\gamma)}. \end{equation*} \notag $$

Из лемм 5.3 и 5.4 с учетом леммы 5.1, (ii) получаем

$$ \begin{equation*} \begin{gathered} \, \begin{split} \| L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}} \|_{L_2(\mathbb R^m,\gamma)} &= \prod_{j \in \mathbb N} \|L_{s_j-e_j;k_j}\|_{L_2(\mathbb R,\gamma)} \leqslant \prod_{j \in \mathbb N} e^{K_2 (s_j-e_j)} \\ &\leqslant \prod_{j \in \mathbb N} e^{K_2 s_j }=e^{K_2 |\boldsymbol{s}|_1} \leqslant e^{K_2 m_1(\xi)} \leqslant e^{K_3\xi^{1/(\theta q)}}, \end{split} \end{gathered} \end{equation*} \notag $$

$$ \begin{equation} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \leqslant e^{K_4|\boldsymbol{s}|_1} \leqslant e^{K_4 m_1(\xi)} \leqslant e^{K_5\xi^{1/(\theta q)}}. \end{equation} \tag{3.38} $$

Суммируя, находим, что

$$ \begin{equation*} \begin{aligned} \, &\| I_{\Lambda(\xi)}v-I_{\Lambda(\xi)}^{\omega}v \|_ {L_2({\mathbb R}^\infty,X,\gamma)} \\ &\qquad \leqslant C_1\xi \exp(- K_1\xi+(K_2+K_5) \xi^{1/(\theta q)}) \sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F} \|v_{\boldsymbol{s}'}\|_{X} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} 1 \\ &\qquad \leqslant C_1 \xi \exp\bigl(- K_1\xi+K_6 \xi^{1/(\theta q)}\bigr) |G(\xi)| \sum_{\boldsymbol{s}' \in \mathbb F} \|v_{\boldsymbol{s}'}\|_{X}. \end{aligned} \end{equation*} \notag $$

Отсюда по лемме 3.1, лемме 5.2 и неравенству $1/(\theta q) \leqslant 1/3$ имеем

$$ \begin{equation*} \| I_{\Lambda(\xi)}v-I_{\Lambda(\xi)}^{\omega}v \|_ {L_2({\mathbb R}^\infty,X,\gamma)} \leqslant C_2 \xi^2 \exp(- K_1\xi+K_6 \xi^{1/(\theta q)}) \leqslant C\xi^{-(1/q-1/2)}. \end{equation*} \notag $$

Лемма доказана.

Лемма 3.3 дает оценку второго члена из правой части (3.34), т.e. оценку погрешности аппроксимации разреженной сеточной лагранжевой интерполяции $I_{\Lambda(\xi)}v$ при помощи срезки $I_{\Lambda(\xi)}^{\omega}v$ функции $v \in L_2({\mathbb R}^\infty,X,\gamma)$ на $B_m^\omega$. На следующем шаге мы построим глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_{\Lambda(\xi)}:=(\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}$ на ${\mathbb R}^m$ для аппроксимации срезки $I_{\Lambda(\xi)}^{\omega}v$ при помощи функции $\Phi_{\Lambda(\xi)}v$ из (3.27) и оценим погрешность аппроксимации (третий член в правой части (3.34)).

Для $s\in \mathbb N_0$ мы представим одномерный интерполяционный полином $L_{s;k}$ в виде линейной комбинации мономов:

$$ \begin{equation} L_{s;k}(y)=: \sum_{\ell=0}^s b^{s;k}_\ell y^\ell. \end{equation} \tag{3.39} $$

В силу (3.39) для каждого $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$ имеем

$$ \begin{equation} L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}} =\sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}} \boldsymbol{y}^{\boldsymbol{\ell}}, \end{equation} \tag{3.40} $$

где в сумме $\sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}}$ суммирование производится по всем $\boldsymbol{\ell}$ таким, что $\boldsymbol{0} \leqslant \boldsymbol{\ell} \leqslant {\boldsymbol{s}-\boldsymbol{e}}$,

$$ \begin{equation*} b^{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}=\prod_{j=1}^m b^{s_j- e_j;k_j}_{\ell_j}, \qquad \boldsymbol{y}^{\boldsymbol{\ell}}=\prod_{j=1}^m y_j^{\ell_j}. \end{equation*} \notag $$

Действительно, имеем

$$ \begin{equation*} \begin{aligned} \, L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}} &=\prod_{j=1}^m L_{s_j-e_j;k_j}(y_j) =\prod_{j=1}^m\sum_{\ell_j=0}^{s_j-e_j} b^{s_j-e_j;k_j}_{\ell_j} y_j^{\ell_j} \\ &=\sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} \biggl( {\prod_{j=1}^m b^{s_j-e_j;k_j}_{\ell_j}} \biggr)\boldsymbol{y}^{\boldsymbol{\ell}} =\sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}} \boldsymbol{y}^{\boldsymbol{\ell}}. \end{aligned} \end{equation*} \notag $$

Используя (3.36) и (3.40), для любого $\boldsymbol{y} \in B^m_\omega$ имеем

$$ \begin{equation} I_{\Lambda(\xi)}^\omega(v)(\boldsymbol{y}) =\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} (-1)^{|\boldsymbol{e}|_1} v(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}} (2\sqrt{\omega})^{|\boldsymbol{\ell}|_1} \prod_{j \in \operatorname{supp}(\boldsymbol{\ell})}\biggl(\frac{y_j}{2\sqrt{\omega}} \biggr)^{\ell_j}. \end{equation} \tag{3.41} $$

Пусть $\boldsymbol{\ell} \in \mathbb F$, $\boldsymbol{0} \leqslant \boldsymbol{\ell} \leqslant \boldsymbol{s}- \boldsymbol{e}$. По определению $\operatorname{supp}(\boldsymbol{\ell}) \subset \operatorname{supp}(\boldsymbol{s}) $. После замены переменных

$$ \begin{equation*} \boldsymbol{x}=\frac{\boldsymbol{y}}{2\sqrt{\omega}}, \qquad \boldsymbol{y} \in \mathbb R^{|{\operatorname{supp}(\boldsymbol{s})}|}, \end{equation*} \notag $$

при $\boldsymbol{y} \in B^{|{\operatorname{supp}(\boldsymbol{s})}|}_\omega$ получаем

$$ \begin{equation} \prod_{j \in \operatorname{supp}(\boldsymbol{\ell})} \biggl(\frac{y_j}{2\sqrt{\omega}}\biggr)^{\ell_j} = \prod_{j \in \operatorname{supp}(\boldsymbol{\ell})} \varphi_1^{\ell_j} \biggl( \frac{y_j}{2\sqrt{\omega}}\biggr) \prod_{j \in \operatorname{supp}(\boldsymbol{s}) \setminus\operatorname{supp}(\boldsymbol{\ell})} \varphi_0 \biggl(\frac{y_j}{2\sqrt{\omega}}\biggr)=h^{\boldsymbol{s}- \boldsymbol{e}}_{\boldsymbol{\ell}}(\boldsymbol{x}), \end{equation} \tag{3.42} $$

где

$$ \begin{equation} h^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}(\boldsymbol{x}) :=\prod_{j \in \operatorname{supp}(\boldsymbol{\ell})} \varphi_1^{\ell_j}(x_j) \prod_{j \in \operatorname{supp}(\boldsymbol{s})\setminus\operatorname{supp}(\boldsymbol{\ell})} \varphi_0(x_j), \end{equation} \tag{3.43} $$

a $\varphi_0$ и $\varphi_1$ – кусочно линейные функции, определенные перед леммой 2.4. Положим

$$ \begin{equation} B_{\boldsymbol{s}}:= \max_{\boldsymbol{e} \in E_{\boldsymbol{s}}, \, \boldsymbol{k} \in \pi_{\boldsymbol{s}- \boldsymbol{e}}} \max_{\boldsymbol{0}\leqslant \boldsymbol{\ell}\leqslant \boldsymbol{s}- \boldsymbol{e}} |b^{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}| \end{equation} \tag{3.44} $$

и зададим число

$$ \begin{equation} \delta^{-1} :=\xi^{1/q-1/2} \sum_{\boldsymbol{s} \in \Lambda(\xi)} e^{K|\boldsymbol{s}|_1} p_{\boldsymbol{s}}(2) (2\sqrt{\omega})^{|\boldsymbol{s}|_1} B_{\boldsymbol{s}}, \end{equation} \tag{3.45} $$

где $K$ – постоянная из леммы 5.3. Применяя лемму 2.4 к произведению в левой части (3.43), получим, что для любых $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$ и $\boldsymbol{\ell}$, $\boldsymbol{0} < \boldsymbol{\ell} \leqslant \boldsymbol{s}-\boldsymbol{e}$, существует такая глубокая $\mathrm{ReLU}$-нейронная сеть $\phi^{\boldsymbol{s}- \boldsymbol{e}}_{\boldsymbol{\ell}}$ на $\mathbb R^{|{\operatorname{supp}(\boldsymbol{s})}|}$, где $\operatorname{supp}(\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}) \subset [-2,2]^{|{\operatorname{supp}(\boldsymbol{s})}|}$, что

$$ \begin{equation} \begin{split} &\sup_{\boldsymbol{y} \in B^{|{\operatorname{supp}(\boldsymbol{s})}|}_{\omega}}\biggl| \prod_{j \in \operatorname{supp}(\boldsymbol{s})} \biggl(\frac{y_j}{2\sqrt{\omega}}\biggr)^{\ell_j} - \phi^{\boldsymbol{s}- \boldsymbol{e}}_{\boldsymbol{\ell}}\biggl(\frac{\boldsymbol{y}}{\sqrt{\omega}}\biggr)\biggr| \\ &\qquad \leqslant \sup_{\boldsymbol{y} \in B^{|{\operatorname{supp}(\boldsymbol{s})}|}_{4\omega}}\biggl| h^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}} \biggl(\frac{\boldsymbol{y}}{2\sqrt{\omega}}\biggr) -\phi^{\boldsymbol{s}- \boldsymbol{e}}_{\boldsymbol{\ell}} \biggl(\frac{\boldsymbol{y}}{2\sqrt{\omega}}\biggr)\biggr| \leqslant \delta, \end{split} \end{equation} \tag{3.46} $$

$$ \begin{equation} \operatorname{supp}\biggl(\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}\biggl( \frac{\cdot}{2\sqrt{\omega}} \biggr) \biggr) \subset B^{|{\operatorname{supp}(\boldsymbol{s})}|}_{4\omega}. \end{equation} \tag{3.47} $$

Из леммы 2.4 и неравенств $|\boldsymbol{\ell}|_1+ |{\operatorname{supp}(\boldsymbol{s})\setminus\operatorname{supp}(\boldsymbol{\ell})}| \leqslant |\boldsymbol{s}|_1 \leqslant \delta^{-1}$ получаем

$$ \begin{equation} W(\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}) \leqslant C \bigl(1+|\boldsymbol{s}|_1(\ln|\boldsymbol{s}|_1+\ln\delta^{-1})\bigr) \leqslant C(1+|\boldsymbol{s}|_1\ln\delta^{-1}), \end{equation} \tag{3.48} $$

$$ \begin{equation} L(\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}) \leqslant C \bigl(1+\ln |\boldsymbol{s}|_1 (\ln|\boldsymbol{s}|_1+\ln \delta^{-1})\bigr) \leqslant C(1+\ln|\boldsymbol{s}|_1 \ln \delta^{-1}). \end{equation} \tag{3.49} $$

Определим глубокую $\mathrm{ReLU}$-нейронную сеть $\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$ на $\mathbb R^{|{\operatorname{supp} (\boldsymbol{s})}|}$ формулой

$$ \begin{equation} \phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}(\boldsymbol{y}) :=\sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} b^{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}} (2\sqrt{\omega})^{|\boldsymbol{\ell}|_1} \phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}} \biggl(\frac{\boldsymbol{y}}{2\sqrt{\omega}}\biggr), \qquad \boldsymbol{y} \in \mathbb R^{|{\operatorname{supp} (\boldsymbol{s})}|}. \end{equation} \tag{3.50} $$

Эта сеть является параллелизацией глубокой $\mathrm{ReLU}$-нейронной сети, составленной из компонент глубоких $\mathrm{ReLU}$-нейронных сетей $\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}({\cdot}/(2\sqrt{\omega}))$. Из (3.47) имеем

$$ \begin{equation} \operatorname{supp} (\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) \subset B^{|{\operatorname{supp} (\boldsymbol{s})}|}_{4\omega}. \end{equation} \tag{3.51} $$

Для $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$ в силу сделанных выше соглашений и с учетом вложений $\operatorname{supp}(\boldsymbol{s}) \subset \{1, \dotsc, m\} \subset \mathbb N$ мы в ряде мест без специальных оговорок отождествим функции $\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}$ и $\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$ на $\mathbb R^{|{\operatorname{supp} (\boldsymbol{s})}|}$ с их расширениями на ${\mathbb R}^m$ или ${\mathbb R}^\infty$.

Определим $\boldsymbol{\phi}_{\Lambda(\xi)}:=(\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}$ как глубокую $\mathrm{ReLU}$-нейронную сеть на ${\mathbb R}^m$, полученную параллелизацией сетей $\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$, $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)$. Рассмотрим аппроксимацию $I_{\Lambda(\xi)}^{\omega}v$ при помощи функций $\Phi_{\Lambda(\xi)} v$, где мы напомним, что

$$ \begin{equation} \Phi_{\Lambda(\xi)} v(\boldsymbol{y}) :=\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} (-1)^{|\boldsymbol{e}|_1} v(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) \phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}(\boldsymbol{y}). \end{equation} \tag{3.52} $$

Лемма 3.4. В условиях теоремы 3.2 для любого $\xi > 1$ имеем

$$ \begin{equation} \| I_{\Lambda(\xi)}^{\omega} v-\Phi_{\Lambda(\xi)} u \|_{L_2(B^m_\omega ,X,\gamma)} \leqslant C \xi^{-(1/q-1/2)}, \end{equation} \tag{3.53} $$

где постоянная $C$ не зависит от $v$ и $\xi$.

Доказательство. По лемме 3.1 ряд (3.8) сходится безусловно к $v$. Поэтому, воспользовавшись (3.36), для любого $\boldsymbol{y} \in B^m_\omega$ имеем

$$ \begin{equation} \begin{aligned} \, \notag I_{\Lambda(\xi)}^\omega(v) (\boldsymbol{y}) &=\sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F}v_{\boldsymbol{s}'} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} (-1)^{|\boldsymbol{e}|_1} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}} (2\sqrt{\omega})^{|\boldsymbol{\ell}|_1} \\ &\qquad \times\prod_{j \in \operatorname{supp}(\boldsymbol{s})} \biggl(\frac{y_j}{2\sqrt{\omega}}\biggr)^{\ell_j}, \end{aligned} \end{equation} \tag{3.54} $$

откуда в силу (3.52)

$$ \begin{equation} \begin{aligned} \, \notag \Phi_{\Lambda(\xi)} v (\boldsymbol{y}) =\sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F}v_{\boldsymbol{s}'} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} (-1)^{|\boldsymbol{e}|_1} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}) \\ \qquad\qquad \times \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}} (2\sqrt{\omega})^{|\boldsymbol{\ell}|_1} \phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}} \biggl(\frac{\boldsymbol{y}}{2\sqrt{\omega}}\biggr). \end{aligned} \end{equation} \tag{3.55} $$

Отсюда, применяя (3.46), получаем, что

$$ \begin{equation} \begin{aligned} \, \notag &\| I_{\Lambda(\xi)}^{\omega}v-\Phi_{\Lambda(\xi)} v \|_{L_2(B^m_\omega,X,\gamma)} \\ &\qquad \leqslant\sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F}\|v_{\boldsymbol{s}'}\|_{X} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} |b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}| (2\sqrt{\omega})^{|\boldsymbol{\ell}|_1}\delta. \end{aligned} \end{equation} \tag{3.56} $$

C учетом (3.44) имеем

$$ \begin{equation*} \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} |b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}| \leqslant B_{\boldsymbol{s}} \prod_{j \in \operatorname{supp}(\boldsymbol{s}-\boldsymbol{e})} s_j \leqslant p_{\boldsymbol{s}}(1) B_{\boldsymbol{s}}, \end{equation*} \notag $$

и, далее, по лемме 5.3 получаем оценку

$$ \begin{equation} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \leqslant \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} e^{K|\boldsymbol{s}-\boldsymbol{e}|_1} \leqslant 2^{|\boldsymbol{s}|_0}e^{K|\boldsymbol{s}|_1} \leqslant p_{\boldsymbol{s}}(1) e^{K|\boldsymbol{s}|_1}. \end{equation} \tag{3.57} $$

Отсюда, воспользовавшись (3.56), леммой 3.1, а также (3.45), имеем

$$ \begin{equation} \begin{aligned} \, \notag &\| I_{\Lambda(\xi)}^{\omega}v-\Phi_{\Lambda(\xi)} v \|_{L_2(B^m_\omega,X,\gamma)} \\ \notag &\qquad \leqslant \sum_{\boldsymbol{s} \in \Lambda(\xi)}\delta B_{\boldsymbol{s}} p_{\boldsymbol{s}}(1)\sum_{\boldsymbol{s}' \in \mathbb F}\|v_{\boldsymbol{s}'}\|_{X} (2\sqrt{\omega})^{|\boldsymbol{s}|_1} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \\ &\qquad \leqslant \sum_{\boldsymbol{s}' \in \mathbb F}\|v_{\boldsymbol{s}'}\|_{X} \delta \sum_{\boldsymbol{s} \in \Lambda(\xi)} e^{K|\boldsymbol{s}|_1}p_{\boldsymbol{s}}(2)(2\sqrt{\omega})^{|\boldsymbol{s}|_1} B_{\boldsymbol{s}} \leqslant C\xi^{-(1/q-1/2)}. \end{aligned} \end{equation} \tag{3.58} $$

Лемма доказана.

В лемме 3.4 мы оценили третий член из правой части (3.34), т.e. получили оценку для погрешности аппроксимации $I_{\Lambda(\xi)}^{\omega}v$ функцией $\Phi_{\Lambda(\xi)}v$ при $v \in L_2({\mathbb R}^\infty,X,\gamma)$. Для завершения оценки погрешности аппроксимации получим оценку четвертого члена из правой части (3.34).

Лемма 3.5. В условиях теоремы 3.2 для любого $\xi > 1$ имеем

$$ \begin{equation} \|{\Phi_{\Lambda(\xi)} v} \|_{L_2(({\mathbb R}^m \setminus B^m_\omega) ,X,\gamma)} \leqslant C\xi^{-(1/q-1/2)}, \end{equation} \tag{3.59} $$

где постоянная $C$ не зависит от $v$ и $\xi$.

Доказательство. Для оценки нормы $\| \Phi_{\Lambda(\xi)} v \|_{L_2(({\mathbb R}^m \setminus B^m_\omega) ,X,\gamma)}$ воспользуемся формулой (3.55). Нам потребуется следующее вспомогательное неравенство:

$$ \begin{equation} \biggl|\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}} \biggl(\frac{\boldsymbol{y}}{2\sqrt{\omega}}\biggr)\biggr| \leqslant 2 \quad \forall\, \boldsymbol{y} \in {\mathbb R}^m. \end{equation} \tag{3.60} $$

Вследствие (3.47) нам достаточно доказать это неравенство для $\boldsymbol{y} \in B^{|{\operatorname{supp}(\boldsymbol{s})}|}_{4\omega}$. Для правой части (3.45) имеем

$$ \begin{equation} \sum_{\boldsymbol{s} \in \Lambda(\xi)} e^{K|\boldsymbol{s}|_1} p_{\boldsymbol{s}}(2) (2\sqrt{\omega})^{|\boldsymbol{s}|_1} B_{\boldsymbol{s}} \geqslant e^{K|{\boldsymbol{0}}|_1} p_{\boldsymbol{0}}(2) (2\sqrt{\omega})^{|{\boldsymbol{0}}|_1} B_{\boldsymbol{0}}=1, \end{equation} \tag{3.61} $$

откуда, воспользовавшись определением (3.45), получаем, что $\delta \leqslant 1$. С другой стороны, по определению $h^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}$ имеем

$$ \begin{equation*} \sup_{\boldsymbol{y} \in B^{|{\operatorname{supp}(\boldsymbol{s})}|}_{4\omega}} \biggl |h^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}} \biggl( \frac{\boldsymbol{y}}{2\sqrt{\omega}}\biggr)\biggr| \leqslant 1. \end{equation*} \notag $$

Теперь (3.60) для $\boldsymbol{y} \in B^{|{\operatorname{supp}(\boldsymbol{s})}|}_{4\omega}$ вытекает из последних двух неравенств, (3.46) и неравенства треугольника.

По (3.60) и лемме 5.7 имеет место следующая оценка:

$$ \begin{equation*} \biggl\|\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}} \biggl( \frac{\cdot}{2\sqrt{\omega}}\biggr)\biggr\|{L_2({\mathbb R}^m \setminus B^m_\omega,\gamma)} \leqslant 2\|1\|_{L_2({\mathbb R}^m \setminus B^m_\omega,\gamma)} \leqslant C_1 m \exp (- K_1\omega ). \end{equation*} \notag $$

Отсюда, используя (3.55), получаем

$$ \begin{equation*} \begin{aligned} \, |\Phi_{\Lambda(\xi)} v \|_{L_2({\mathbb R}^m \setminus B^m_\omega ,X,\gamma)} &\leqslant \sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{s}' \in \mathbb F} \|v_{\boldsymbol{s}'}\|_X\sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \\ &\qquad \times \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} |b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}| (2\sqrt{\omega})^{|\boldsymbol{\ell}|_1} \|\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}} \biggl(\frac{\cdot}{2\sqrt{\omega}}\biggr)\|_{L_2({\mathbb R}^m \setminus B^m_\omega,\gamma)} \\ &\leqslant C_1m \exp(-K_1\omega) \sum_{\boldsymbol{s} \in \Lambda(\xi)} (2\sqrt{\omega})^{|\boldsymbol{s}|_1}\sum_{\boldsymbol{s}' \in \mathbb F} \|v_{\boldsymbol{s}'}\|_X\sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \\ &\qquad \times\sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} |b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}|. \end{aligned} \end{equation*} \notag $$

Учитывая связанные с тензорами соображения из леммы 5.6, а также неравенство $\boldsymbol{s}-\boldsymbol{e} \leqslant \boldsymbol{s}$ при $\boldsymbol{e} \in E_{\boldsymbol{s}}$, мы получаем оценки

$$ \begin{equation} \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} |b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}| \leqslant e^{K_2|\boldsymbol{s}|_1} \boldsymbol{s}! \leqslant e^{K_2|\boldsymbol{s}|_1} |\boldsymbol{s}|_1^{|\boldsymbol{s}|_1}, \end{equation} \tag{3.62} $$

откуда с помощью (3.57) находим, что

$$ \begin{equation} \begin{aligned} \, \notag \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} | H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} |b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}| &\leqslant \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}})| e^{K_2|\boldsymbol{s}|_1} |\boldsymbol{s}|_1^{|\boldsymbol{s}|_1} \\ &\leqslant p_{\boldsymbol{s}}(1) e^{K_2|\boldsymbol{s}|_1} |\boldsymbol{s}|_1^{|\boldsymbol{s}|_1}. \end{aligned} \end{equation} \tag{3.63} $$

Теперь, используя (3.31), (3.38), а также лемму 3.1, мы продолжаем нашу оценку следующим образом:

$$ \begin{equation} \begin{aligned} \, \notag &\| \Phi_{\Lambda(\xi)} v \| _{L_2({\mathbb R}^m \setminus B^m_\omega ,X,\gamma)} \\ \notag &\qquad \leqslant C_1m \exp (- K_1\omega ) \sum_{\boldsymbol{s}' \in \mathbb F} \|v_{\boldsymbol{s}'}\|_X \sum_{\boldsymbol{s} \in \Lambda(\xi)} (2\sqrt{\omega})^{|\boldsymbol{s}|_1} p_{\boldsymbol{s}}(1) e^{K_2|\boldsymbol{s}|_1} |\boldsymbol{s}|_1^{|\boldsymbol{s}|_1} \\ \notag &\qquad \leqslant C_2m \exp (- K_1\omega ) \sum_{\boldsymbol{s} \in \Lambda(\xi)} (2\sqrt{\omega})^{|\boldsymbol{s}|_1} p_{\boldsymbol{s}}(1) e^{K_2|\boldsymbol{s}|_1} |\boldsymbol{s}|_1^{|\boldsymbol{s}|_1} \\ &\qquad \leqslant C_2\xi \exp (- K_1 \xi ) \bigl({C_3 \xi^{1/2}} \bigr)^{m_1(\xi)} e^{K_2{m_1(\xi)}} [m_1(\xi)]^{m_1(\xi)} \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(1). \end{aligned} \end{equation} \tag{3.64} $$

По условию теоремы 3.2 при некотором $\theta \geqslant 3/q$ имеет место оценка $\| {\boldsymbol{p}(\theta)\boldsymbol{\sigma}^{-1}}\|_ {\ell_q(\mathcal F)} \leqslant C < \infty$. Отсюда следует, что

$$ \begin{equation*} \biggl\|{\boldsymbol{p}\biggl(\frac 3q\biggr) \boldsymbol{\sigma}^{-1}} \biggr\|_{\ell_q(\mathcal F)} \leqslant \|{\boldsymbol{p}(\theta)\boldsymbol{\sigma}^{-1}} \|_{\ell_q(\mathcal F)} \leqslant C < \infty. \end{equation*} \notag $$

Применяя утверждение (i) леммы 5.1, имеем

$$ \begin{equation*} \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(1) \leqslant \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(3) \leqslant C. \end{equation*} \notag $$

Теперь, воспользовавшись (3.64), а также утверждением (ii) леммы 5.1, получаем:

$$ \begin{equation*} \begin{aligned} \, &\| {\Phi_{\Lambda(\xi)} v} \|_ {L_2({\mathbb R}^m \setminus B^m_\omega ,X,\gamma)} \\ &\qquad \leqslant C_2\xi \exp (- K_1 \xi) ({C_3 \xi^{1/2}})^{K_{q,\theta} \xi^{1/(\theta q)}} e^{K_3K_{q,\theta} \xi^{1/(\theta q)}} (K_{q,\theta} \xi^{1/(\theta q)})^{K_{q,\theta} \xi^{1/(\theta q)}} C_4 \xi \\ &\qquad \leqslant C_5 \xi^2 \exp(- K_1 \xi+K_4\xi^{1/(\theta q)} \ln \xi+K_5 \xi^{1/(\theta q)}). \end{aligned} \end{equation*} \notag $$

Поскольку $1/(\theta q) \leqslant 1/3$, имеем

$$ \begin{equation*} \|\Phi_{\Lambda(\xi)} v\|_{L_2({\mathbb R}^m \setminus B^m_\omega ,X,\gamma)} \leqslant C \xi^{-(1/q -1/2)}. \end{equation*} \notag $$

Лемма 3.5 доказана.

Для завершения доказательства теоремы 3.2 (утверждения (iii) и (iv)) нам требуется оценить размер и глубину глубокой $\mathrm{ReLU}$-нейронной сети $\boldsymbol{\phi}_{\Lambda(\xi)}$.

Лемма 3.6. Пусть выполнены предположения теоремы 3.2. Тогда для любого $\xi > 1$ входная размерность сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ не превосходит $\lfloor K_q \xi \rfloor$, выходная размерность сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ не превосходит $\lfloor C_q \xi \rfloor$ и выполнены следующие оценки:

$$ \begin{equation} W(\boldsymbol{\phi}_{\Lambda(\xi)}) \leqslant C \xi^{1+2/(\theta q)} \ln \xi, \end{equation} \tag{3.65} $$

$$ \begin{equation} L(\boldsymbol{\phi}_{\Lambda(\xi)}) \leqslant C \xi^{1/(\theta q)} (\ln \xi)^2, \end{equation} \tag{3.66} $$

где постоянные $C$ не зависят от $v$ и $\xi$.

Доказательство. Входная размерность сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ не выше чем $m(\xi)$, что, в свою очередь, не превосходит $\lfloor K_q \xi \rfloor$ по утверждению (iii) леммы 5.1. Выходная размерность сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ есть число $|G(\xi)|$, которое по лемме 5.2 оценивается сверху величиной $\lfloor C_q \xi \rfloor$.

Используя леммы 2.1, 2.4, а также (3.48), оценим размер сети $\boldsymbol{\phi}_{\Lambda(\xi)} $ следующим образом:

$$ \begin{equation} \begin{aligned} \, \notag W(\boldsymbol{\phi}_{\Lambda(\xi)}) &\leqslant\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} W (\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}) \leqslant\sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} W(\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}) \\ &\leqslant C_1 \sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} (1+|\boldsymbol{s}|_1 \ln \delta^{-1}), \end{aligned} \end{equation} \tag{3.67} $$

где, напомним,

$$ \begin{equation*} \begin{gathered} \, \delta^{-1} :=\xi^{1/q-1/2} \sum_{\boldsymbol{s} \in \Lambda(\xi)} e^{K_1|\boldsymbol{s}|_1} p_{\boldsymbol{s}}(2) (2\sqrt{\omega})^{|\boldsymbol{s}|_1} B_{\boldsymbol{s}}, \\ B_{\boldsymbol{s}}:= \max_{\boldsymbol{e} \in E_{\boldsymbol{s}}, \, \boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} \max_{\boldsymbol{0}\leqslant \boldsymbol{\ell}\leqslant \boldsymbol{s}- \boldsymbol{e}} |b^{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}|. \end{gathered} \end{equation*} \notag $$

Из (3.62) имеем

$$ \begin{equation*} B_{\boldsymbol{s}} \leqslant \max_{\boldsymbol{e} \in E_{\boldsymbol{s}}, \, \boldsymbol{k} \in \pi_{\boldsymbol{s}- \boldsymbol{e}}} \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} |{b^{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}_{\boldsymbol{\ell}}}| \leqslant \exp(K_2 \xi^{1/(\theta q)} \ln \xi), \end{equation*} \notag $$

откуда по утверждению (i) леммы 5.1 имеем

$$ \begin{equation*} \begin{aligned} \, \delta^{-1} &\leqslant \xi^{1/q-1/2}\exp\bigl({K_2 \xi^{1/(\theta q)} \bigr) \ln \xi} \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(2) \\ & \leqslant C_2\xi^{1/q +1/2}\exp\bigl({K_3 \xi^{1/(\theta q)} \ln \xi}\bigr) \leqslant C_2\exp\bigl({K_3 \xi^{1/(\theta q)} \ln \xi}\bigr) . \end{aligned} \end{equation*} \notag $$

Как следствие,

$$ \begin{equation} \ln(\delta^{-1}) \leqslant K_4 \xi^{1/(\theta q)} \ln \xi, \end{equation} \tag{3.68} $$

что, в свою очередь, влечет оценку

$$ \begin{equation*} (1+|\boldsymbol{s}|_1 \ln \delta^{-1}) \leqslant \bigl({ 1+|\boldsymbol{s}|_1 K_4 \xi^{1/(\theta q)} \ln \xi}\bigr) \leqslant C_2 \xi^{2/(\theta q)} \ln \xi. \end{equation*} \notag $$

Теперь требуемая оценка на размер сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ следует из (3.67), а также из леммы 5.2:

$$ \begin{equation*} \begin{aligned} \, W(\boldsymbol{\phi}_{\Lambda(\xi)}) &\leqslant C_2 \xi^{2/(\theta q)} \ln \xi \sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} \sum_{\boldsymbol{\ell}=\boldsymbol{0}}^{\boldsymbol{s}-\boldsymbol{e}} 1 \\ &\leqslant C_2 \xi^{2/(\theta q)} \ln \xi \sum_{ (\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)}p_{\boldsymbol{s}}(1) \leqslant C_3 \xi^{1+2/(\theta q)} \ln \xi. \end{aligned} \end{equation*} \notag $$

Используя лемму 2.1, (3.49), (3.68), а также утверждение (ii) леммы 5.1, мы докажем, что аналогично оценке (3.66) глубина сети $\boldsymbol{\phi}_{\Lambda(\xi)} $ оценивается сверху следующим образом:

$$ \begin{equation*} \begin{aligned} \, L({\boldsymbol{\phi}_{\Lambda(\xi)}}) &\leqslant \max_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} L (\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}) \leqslant \max_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} \max_{\boldsymbol{0}\leqslant \boldsymbol{\ell} \leqslant \boldsymbol{s}-\boldsymbol{e}} L({\phi^{\boldsymbol{s}-\boldsymbol{e}}_{\boldsymbol{\ell}}}) \\ & \leqslant C_4 \max_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} \max_{\boldsymbol{0}\leqslant \boldsymbol{\ell} \leqslant \boldsymbol{s}-\boldsymbol{e}} ({ 1+\ln |\boldsymbol{s}|_1 \ln \delta^{-1}}) \\ & \leqslant C_4 \max_{\boldsymbol{s} \in \Lambda(\xi)} ({ 1+\ln |\boldsymbol{s}|_1 \ln \delta^{-1}}) \\ & \leqslant C_4 \max_{\boldsymbol{s} \in \Lambda(\xi)} \bigl( 1+\ln ({K_{q,\theta} \xi^{1/(\theta q)}} )({K_5 \xi^{1/(\theta q)} \ln \xi)} \bigr) \leqslant C_5 \xi^{1/(\theta q)} (\ln \xi)^2. \end{aligned} \end{equation*} \notag $$

Лемма 3.6 доказана.

Теперь мы можем приступить к доказательству теоремы 3.2.

Доказательство теоремы 3.2. Из (3.34), теоремы 3.1 и лемм 3.3–3.5, для любого $\xi > 2$ имеем

$$ \begin{equation*} \|{v-\Phi_{\Lambda(\xi)} v}{L_2({\mathbb R}^\infty,X,\gamma)}\| \leqslant C \xi^{- (1/q-1/2)}, \end{equation*} \notag $$

что доказывает утверждение (vi). Утверждение (i) непосредственно вытекает из построения глубокой $\mathrm{ReLU}$-нейронной сети $\boldsymbol{\phi}_{\Lambda(\xi)}$ и последовательности точек $Y_{\Lambda(\xi)}$ с учетом утверждения (ii) из леммы 5.2, утверждений (iii)–(iv) леммы 3.6 и утверждения (v) леммы 5.1, (ii), а также с учетом (3.51). Таким образом, в случае $U={\mathbb R}^\infty$ теорема 3.2 доказана.

В случае $U={\mathbb R}^M$ рассуждения аналогичны, но с небольшой модификацией. В случае $U={\mathbb R}^M$ имеют место аналоги всех определений, формул и утверждений, использованных в доказательстве в случае $U={\mathbb R}^\infty$. В частности, равенство $\|H_{\boldsymbol{s}}\|_{L_2({\mathbb R}^\infty)}=1$, $\boldsymbol{s} \in \mathbb F$, использованное нами для $U={\mathbb R}^\infty$, заменяется на неравенство $\|{H_{\boldsymbol{s}}}{L_\infty^{\sqrt{g}}({\mathbb R}^M)} \|< 1$, $\boldsymbol{s} \in \mathbb N_0^M$. Теорема доказана.

§ 4. Приложение к параметрическим эллиптических УрЧП

В этом параграфе мы применим результаты предыдущего параграфа в задаче аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями решения $u$ параметрических эллиптических УрЧП (1.2) c логнормальными входами (1.3). Нам потребуется следующий результат (см. [4; теоремы 3.3 и 4.2]) о $\ell_2$-суммировании с весом рядов $(\|u_{\boldsymbol{s}}\|_V)_{\boldsymbol{s} \in \mathcal F}$.

Лемма 4.1. Предположим, что для некоторого числа $0<q<\infty$ и возрастающей числовой последовательности $\boldsymbol{\rho}=(\rho_{j})_{j \in \mathcal N}$, в которой каждый член больше единицы, причем $\|{\boldsymbol{\rho}^{-1}}\|_{\ell_q(\mathcal N)} \leqslant C < \infty$, выполнена оценка

$$ \begin{equation*} \biggl\| \sum _{j \in \mathcal N} \rho_j |\psi_j| \biggr\|_{L_\infty(D)} \leqslant C <\infty, \end{equation*} \notag $$

в которой постоянная $C$ не зависит от $J$. Тогда при любом $\eta \in \mathcal N$

$$ \begin{equation} \sum_{\boldsymbol{s}\in\mathcal F} (\sigma_{\boldsymbol{s}} \|u_{\boldsymbol{s}}\|_V)^2 \leqslant C < \infty, \quad \textit{где } \ \sigma_{\boldsymbol{s}}^2:=\sum_{\|\boldsymbol{s}'\|_{\ell_\infty(\mathcal F)}\leqslant \eta}{\binom {\boldsymbol{s}}{ \boldsymbol{s}'}} \prod_{j \in \mathcal N}\rho_j^{2s_j'} \end{equation} \tag{4.1} $$

и постоянная $C$ не зависит от $J$.

Следующие две леммы доказаны в [15] (леммы 5.2 и 5.3 соответственно).

Лемма 4.2. Пусть выполнены условия леммы 4.1. Тогда отображение в пространство решений $\boldsymbol{y} \mapsto u(\boldsymbol{y})$ $\gamma$-измеримо и $u \in L_2(U,V,\gamma)$. Более того, $u \in L_2^\mathcal E(U,V,\gamma)$, где

$$ \begin{equation} \mathcal E :=\Bigl\{\boldsymbol{y} \in {\mathbb R}^\infty\colon\sup_{j \in \mathbb N} \rho_j^{-1} |y_j| < \infty \Bigr\}, \end{equation} \tag{4.2} $$

$\gamma(\mathcal E)=1$ и при $U={\mathbb R}^\infty$ множество $\mathcal E$ содержит все векторы $\boldsymbol{y} \in {\mathbb R}^\infty$, у которых $|\boldsymbol{y}|_0 < \infty$.

Лемма 4.3. Пусть $0 \,{<}\, q \,{<}\,\infty$, а $\boldsymbol{\rho}=(\rho_j) _{j \in \mathcal N}$ – такая последовательность положительных чисел, что $\|{\boldsymbol{\rho}^{-1}} \|_{\ell_q(\mathcal N)} \leqslant C < \infty$, где постоянная $C$ не зависит от $J$. Пусть $\theta$ – произвольное неотрицательное число, $\boldsymbol{p}(\theta)\,{=}\,(p_{\boldsymbol{s}}(\theta))_{\boldsymbol{s} \in \mathcal F}$ – множество, определенное в (3.20), и для $\eta \in \mathbb N$ пусть $\boldsymbol{\sigma}=(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$ – множество, определенное в (4.1). Тогда при $\eta >2(\theta+1)/q$ имеет место оценка

$$ \begin{equation*} \|{\boldsymbol{p}(\theta)\boldsymbol{\sigma}^{-1}}\| _ {\ell_q(\mathcal F)} \leqslant C < \infty, \end{equation*} \notag $$

где постоянная $C$ не зависит от $J$.

Теперь мы можем сформулировать наши основные результаты по коллокационной аппроксимации глубокими $\mathrm{ReLU}$-нейронными сетями решения $u$ параметрических эллиптических УрЧП c логнормальными входами.

Теорема 4.1. Пусть выполнены условия леммы 4.1, и пусть $0 < q < 2$. Тогда для произвольного числа $\delta > 0$ и любого целого числа $n > 2$ можно построить глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_{\Lambda(\xi_n)}:=(\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)}$ размера $W(\boldsymbol{\phi}_{\Lambda(\xi_n)}) \leqslant n$ на $\mathbb R^m$, где

$$ \begin{equation*} m := \begin{cases} \min \biggl\{M, \biggl\lfloor K \biggl(\dfrac{n}{\ln n}\biggr)^{1/(1+\delta)} \biggr\rfloor \biggr\}, &\textit{если } U={\mathbb R}^M, \\ \biggl\lfloor K \biggl(\dfrac{n}{\ln n})^{1/(1+\delta)} \biggr\rfloor, &\textit{если }U={\mathbb R}^\infty, \end{cases} \end{equation*} \notag $$

а также последовательность $Y_{\Lambda(\xi_n)}:=(\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)}$ со следующими свойствами:

(i) сеть $\boldsymbol{\phi}_{\Lambda(\xi_n)}$ и последовательность $Y_{\Lambda(\xi_n)}$ не зависят от $u$;

(ii) выходная размерность сети $\boldsymbol{\phi}_{\Lambda(\xi_n)}$ не превосходит $\lfloor K ({n}/{\ln n})^{1/(1+\delta)} \rfloor $;

(iii) $L (\boldsymbol{\phi}_{\Lambda(\xi_n)} )\leqslant C_\delta (n/\ln n)^{\delta/(2(1+\delta))}(\ln n)^2$;

(iv) компоненты $\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$, $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)$, сети $\boldsymbol{\phi}_{\Lambda(\xi_n)}$ являются глубокими $\mathrm{ReLU}$-нейронными сетями на $\mathbb R^{m_{\boldsymbol{s}}}$, где $m_{\boldsymbol{s}} \leqslant C_\delta n^\delta$, с носителями в суперкубе $[-T,T]^{m_{\boldsymbol{s}}}$, где $T:=C_\delta (n/\ln n)^{1/(2(1+\delta))}$;

(v) погрешность определенной в (3.27) аппроксимации решения $u$ функцией $\Phi_{\Lambda(\xi_n)}u$ оценивается сверху следующим образом:

$$ \begin{equation*} \| u- \Phi_{\Lambda(\xi_n)} u \|_{\mathcal L(U,V)} \leqslant C \biggl(\frac{n}{\ln n}\biggr)^{-(1/q-1/2)/(1+\delta)}. \end{equation*} \notag $$

Здесь постоянные $C$, $K$ и $C_\delta$ не зависят от $J$, $u$ и $n$.

Доказательство. Для доказательства теоремы мы применим теорему 3.2 к решению $u$. Без ограничения общности мы можем предполагать, что $\delta \leqslant 1/6$. Для начала выберем число $\theta :=2/(\delta q)$, удовлетворяющее неравенству $\theta \geqslant 3/q$, а потом выберем число $\eta \in \mathbb N$, удовлетворяющее неравенству $\eta > 2(\theta+1)/q$. Используя леммы 4.1–4.3, можно проверить, что $u \in L_2^\mathcal E(U,V,\gamma)$ удовлетворяет условиям теоремы 3.2 для $X=V$ и множества $(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathbb F}$, определенного в (4.1), где $\mathcal E$ – множество из леммы 4.2. Для заданного целого числа $n > 2$ определим $\xi_n >2$ как максимальное число, удовлетворяющее неравенству $C \xi_n^{1+\delta} \ln \xi_n \leqslant n$, где $C$ – постоянная из утверждения (ii) теоремы 3.2. Легко проверить, что найдутся такие постоянные $C_1$ и $C_2$, не зависящие от $n$, что

$$ \begin{equation*} C_1\biggl(\frac{n}{\ln n}\biggr)^{1/(1+\delta)} \leqslant \xi_n \leqslant C_2\biggl(\frac{n}{\ln n}\biggr)^{1/(1+\delta)}. \end{equation*} \notag $$

Теперь требуемые результаты обеспечиваются теоремой 3.2 для $\xi=\xi_n$. Теорема 4.1 доказана.

Следующий результат является непосредственным следствием теоремы 4.1.

Теорема 4.2. Пусть выполнены условия леммы 4.1, и пусть $0 < q < 2$. Положим $\delta_q:=\min (1, 1/q -1/2)$. Тогда для любого числа $\delta \in (0,\delta_q)$ и любого целого числа $n > 1$ можно построить глубокую $\mathrm{ReLU}$-нейронную сеть $\boldsymbol{\phi}_{\Lambda(\xi_n)}:=(\phi_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)}$ размера $W(\boldsymbol{\phi}_{\Lambda(\xi_n)}) \leqslant n$ на $\mathbb R^m$, где

$$ \begin{equation*} m := \begin{cases} \min \{M, \lfloor K n^{1-\delta} \rfloor\},&\textit{если }U={\mathbb R}^M, \\ \lfloor K n^{1-\delta} \rfloor,&\textit{если }U={\mathbb R}^\infty, \end{cases} \end{equation*} \notag $$

(i) сеть $\phi_{\Lambda(\xi_n)}$ и последовательность $Y_{\Lambda(\xi_n)}$ не зависят от $u$;

(ii) выходная размерность сети $\boldsymbol{\phi}_{\Lambda(\xi_n)}$ не превосходит $\lfloor K n^{1-\delta} \rfloor$;

(iii) $L(\boldsymbol{\phi}_{\Lambda(\xi_n)})\leqslant C_\delta n^\delta$;

(iv) компоненты $\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}$, $(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)$ сети $\boldsymbol{\phi}_{\Lambda(\xi_n)}$ являются глубокими $\mathrm{ReLU}$-нейронными сетями на $\mathbb R^{m_{\boldsymbol{s}}}$, $m_{\boldsymbol{s}} \leqslant C_\delta n^\delta$, с носителями из суперкуба $[-T,T]^{m_{\boldsymbol{s}}}$, где $T:=C_\delta n^{1-\delta}$;

$$ \begin{equation} \| u- \Phi_{\Lambda(\xi_n)} u \|_{\mathcal L(U,V)} \leqslant C m^{-(1/q-1/2)} \leqslant C_\delta n^{- (1-\delta)(1/q-1/2)}. \end{equation} \tag{4.3} $$

Здесь постоянные $K$, $C$, $C_\delta$ не зависят от $J$, $u$ и $n$.

Сравним коллокационную аппроксимацию $u$ с аппроксимацией функцией

$$ \begin{equation} \Phi_{\Lambda(\xi_n)}u :=\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)} (-1)^{|\boldsymbol{e}|_1} u(\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})\phi_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}, \end{equation} \tag{4.4} $$

построенной по глубокой $\mathrm{ReLU}$-нейронной сети $\boldsymbol{\phi}_{\Lambda(\xi_n)}$ (как в теореме 4.2) и коллокационной аппроксимации $u$ посредством разреженной сеточной лагранжевой ОПРХ-интерполяции

$$ \begin{equation} I_{\Lambda(\xi_n)}u :=\sum_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)} (-1)^{|\boldsymbol{e}|_1} u(\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}})L_{\boldsymbol{s}-\boldsymbol{e};\boldsymbol{k}}. \end{equation} \tag{4.5} $$

Оба этих метода основаны на использовании $m$ идентичных частных решателей $(u(\boldsymbol{y}_{\boldsymbol{s}- \boldsymbol{e};\boldsymbol{k}}))_{(\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi_n)}$. Из следствия 3.1 вытекает, что в условиях теоремы 4.2 для погрешности последней аппроксимации верна следующая оценка в терминах $m$:

$$ \begin{equation*} \|u- I_{\Lambda(\xi_n)} u\|_{\mathcal L(U, V)} \leqslant C m^{-(1/q-1/2)}, \end{equation*} \notag $$

которая совпадает с оценкой из (4.3) для первой аппроксимации, поскольку параметр $m$ в (4.3) может по построению считаться независимым. После публикации предварительного варианта настоящей работы в ArXiv и публикации работы [17] К. Шваб и Я. Цех сообщили автору о своей работе [50], в которой рассматривались некоторые задачи, аналогичные рассмотренным в [17].

§ 5. Приложение

5.1. Вспомогательные леммы

Лемма 5.1. Пусть $\theta\geqslant 0$, $0<q<\infty$, и пусть $\boldsymbol{\sigma}= (\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$ – множество чисел, каждое из которых больше единицы. Тогда имеют место следующие утверждения.

(i) Если $\|{\boldsymbol{p} (\theta/q)\boldsymbol{\sigma}^{-1}}\|_{\ell_q(\mathcal F)} \leqslant K < \infty$, где постоянная $K$ не зависит от $J$, то

$$ \begin{equation} \sum_{ \boldsymbol{s}\in \Lambda(\xi)} p_{\boldsymbol{s}}(\theta) \leqslant K \xi \quad \forall\, \xi > 1. \end{equation} \tag{5.1} $$

В частности, если $\|{\boldsymbol{\sigma}^{-1}}\|_{\ell_q(\mathcal F)}^q \leqslant K_q < \infty$, где постоянная $K_q \geqslant 1$ не зависит от $J$, то множество $\Lambda(\xi)$ конечно и

$$ \begin{equation} |\Lambda(\xi)| \leqslant K_q \xi \quad \forall\, \xi > 1. \end{equation} \tag{5.2} $$

(ii) Если $\|{\boldsymbol{p}(\theta)\boldsymbol{\sigma}^{-1}} \|_{\ell_q(\mathcal F)}^{1/\theta} \leqslant K_{q,\theta} < \infty$, где постоянная $K_{q,\theta}$ не зависит от $J$, то

$$ \begin{equation} m_1(\xi) \leqslant K_{q,\theta} \xi^{1/(\theta q)} \quad \forall\, \xi > 1. \end{equation} \tag{5.3} $$

(iii) Если $\sigma_{\boldsymbol{e}^{i'}} \leqslant \sigma_{\boldsymbol{e}^i}$ при $i' < i$ и если $\|\boldsymbol{\sigma}^{-1}\|_{\ell_q(\mathcal F)}^q \leqslant K_q < \infty$, где постоянная $K_q \geqslant 1$ не зависит от $J$, то

$$ \begin{equation} m(\xi) \leqslant K_q \xi \quad \forall\, \xi > 1. \end{equation} \tag{5.4} $$

Доказательство. Для $\mathcal F=\mathbb F$ утверждения (ii) и (iii) доказаны соответственно в леммах 3.2 и 3.3 работы [17]. Случай $\mathcal F=\mathbb N_0^M$ исследуется аналогично. Докажем утверждение (i). Действительно, для любого $\xi > 1$ имеем

$$ \begin{equation*} \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(\theta) \leqslant \sum_{\boldsymbol{s} \in \mathcal F\colon\sigma_{\boldsymbol{s}}^{-q}\xi\geqslant 1} p_{\boldsymbol{s}}(\theta) \xi \sigma_{\boldsymbol{s}}^{-q} \leqslant \xi \sum_{\boldsymbol{s}\in \mathcal F} p_{\boldsymbol{s}}(\theta) \sigma_{\boldsymbol{s}}^{-q} \leqslant C\xi. \end{equation*} \notag $$

Лемма доказана.

Лемма 5.2. Пусть $\theta\geqslant 0$, $0<q<\infty$, $\xi > 1$, и пусть $\boldsymbol{\sigma}=(\sigma_{\boldsymbol{s}})_{\boldsymbol{s} \in \mathcal F}$ – множество чисел, каждое из которых больше чем $1$. Предположим, что $\|{\boldsymbol{p} ((\theta+2)/q) \boldsymbol{\sigma}^{-1}}\|_{\ell_q(\mathcal F)} \leqslant C < \infty$, где постоянная $C$ не зависит от $J$. Тогда

$$ \begin{equation} \sum_{ (\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} p_{\boldsymbol{s}}(\theta) \leqslant C\xi \quad \forall\, \xi > 1. \end{equation} \tag{5.5} $$

В частности, если $\|\boldsymbol{p}(2/q)\boldsymbol{\sigma}^{-1}\|_{\ell_q(\mathcal F)}^q \leqslant C_q < \infty$, где постоянная $C$ не зависит от $J$, то

$$ \begin{equation*} |G(\xi)| \leqslant C_q \xi \quad \forall\, \xi > 1. \end{equation*} \notag $$

Доказательство. При любом $\xi > 1$ имеем

$$ \begin{equation*} \begin{aligned} \, \sum_{ (\boldsymbol{s},\boldsymbol{e},\boldsymbol{k}) \in G(\xi)} p_{\boldsymbol{s}}(\theta) &=\sum_{\boldsymbol{s} \in \Lambda(\xi)} \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}-\boldsymbol{e}}} p_{\boldsymbol{s}}(\theta) \leqslant \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(\theta) \sum_{\boldsymbol{e} \in E_{\boldsymbol{s}}} |\pi_{\boldsymbol{s}-\boldsymbol{e}}| \\ &\leqslant \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(\theta) |E_{\boldsymbol{s}}| p_{\boldsymbol{s}}(1) =\sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(\theta+1) 2^{|\boldsymbol{s}|_0} \leqslant \sum_{\boldsymbol{s} \in \Lambda(\xi)} p_{\boldsymbol{s}}(\theta+2) \\ &\leqslant \sum_{\boldsymbol{s} \in \mathcal F\colon\sigma_{\boldsymbol{s}}^{-q}\xi\geqslant 1} p_{\boldsymbol{s}}(\theta+2) \xi \sigma_{\boldsymbol{s}}^{-q} \leqslant \xi \sum_{\boldsymbol{s}\in \mathcal F} p_{\boldsymbol{s}}(\theta+2) \sigma_{\boldsymbol{s}}^{-q} \leqslant C\xi. \end{aligned} \end{equation*} \notag $$

Лемма 5.3. Для любых $\boldsymbol{s}, \boldsymbol{s}' \in \mathcal F$ имеет место следующая оценка:

$$ \begin{equation} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s};\boldsymbol{k}})| \leqslant e^{K|\boldsymbol{s}|_1}, \end{equation} \tag{5.6} $$

где постоянная $K$ не зависит от $J$ и $\boldsymbol{s}$, $\boldsymbol{s}'$.

Доказательство. Воспользовавшись неравенством Крамера (см., например, [15; лемма 3.2]), имеем:

$$ \begin{equation} |H_s(y)\sqrt{g(y)}|<1 \quad \forall\, y \in \mathbb R \quad \forall\, s \in \mathbb N_0, \end{equation} \tag{5.7} $$

или, что эквивалентно,

$$ \begin{equation} |H_s(y)|<(2\pi)^{1/4} e^{y^2/4} \quad \forall\, y \in \mathbb R, \quad \forall\, s \in \mathbb N_0. \end{equation} \tag{5.8} $$

Пусть заданы $\boldsymbol{s}, \boldsymbol{s}' \in \mathcal F$ и $\boldsymbol{k} \in \pi_{\boldsymbol{s}}$. Отметим, что для одномерных полиномов Эрмита имеем $H_0=1$, $H_{2s+1}(0)=0$ и $|H_{2s}(0)|\leqslant 1 $ при $s \in \mathbb N_0$. Тогда из (5.8) получаем, что

$$ \begin{equation} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s};\boldsymbol{k}})| \leqslant \prod_{j \in \operatorname{supp} (\boldsymbol{s}')\cap \operatorname{supp} (\boldsymbol{s})} |H_{s_j'}(y_{s_j,k_j})| \leqslant \prod_{j \in \operatorname{supp} (\boldsymbol{s})} (2\pi)^{1/4} e^{y_{s_j,k_j}^2/4}. \end{equation} \tag{5.9} $$

Следовательно,

$$ \begin{equation} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s};\boldsymbol{k}})| \leqslant \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}}} \prod_{j \in \operatorname{supp} (\boldsymbol{s})} (2\pi)^{1/4} e^{y_{s_j,k_j}^2/4} = \prod_{j \in \operatorname{supp} (\boldsymbol{s})} (2\pi)^{1/4} \sum_{k_j \in \pi_{s_j}} e^{y_{s_j,k_j}^2/4}. \end{equation} \tag{5.10} $$

Из [55; (6.31.19)] имеем

$$ \begin{equation} |y_{s;k}| \leqslant K_1 \frac{|k|}{\sqrt s} \quad \forall\, k \in \pi_s, \quad \forall\, s \in \mathbb N. \end{equation} \tag{5.11} $$

Как следствие,

$$ \begin{equation} (2\pi)^{1/4} \sum_{k_j \in \pi_{s_j}} e^{y_{s_j,k_j}^2/4} \leqslant 2 (2\pi)^{1/4} \sum_{k_j=0}^{\lfloor s_j/2\rfloor} \exp{\biggl(\frac{K_1}{4} \frac{k_j^2}{s_j}\biggr)}\leqslant e^{Ks_j} \quad \forall\, s_j \in \mathbb N. \end{equation} \tag{5.12} $$

Отсюда получаем

$$ \begin{equation*} \sum_{\boldsymbol{k} \in \pi_{\boldsymbol{s}}} |H_{\boldsymbol{s}'}(\boldsymbol{y}_{\boldsymbol{s};\boldsymbol{k}})| \leqslant\prod_{j \in \operatorname{supp} (\boldsymbol{s})} e^{K s_j} =e^{K |\boldsymbol{s}|_1}, \end{equation*} \notag $$

что завершает доказательство леммы 5.3.

Лемма 5.4. При любых $s \in \mathbb N$ и $k \in \pi_{s}$ имеют место следующие оценки:

$$ \begin{equation} \|L_{s;k}\|_{L_2(\mathbb R,\gamma)} \leqslant e^{K s}, \end{equation} \tag{5.13} $$

$$ \begin{equation} \|L_{s;k}\|_{L_{\infty}^{\sqrt{g}}(\mathbb R)} \leqslant e^{K s}, \end{equation} \tag{5.14} $$

где постоянные $K$ не зависят от $s$ и $k \in \pi_{s}$.

Доказательство. Полином $L_{s;k}$ имеет $s$ простых нулей $\{y_{s;j}\}_{j \in \pi_{s},\,j \ne k}$; при этом $L_{s;k}(y_{s;k})=1$. Также отметим, что $L_{s;k}$ не имеет нулей на интервале $(y_{s;k-1}, y_{s;k})$ и

$$ \begin{equation*} L_{s;k}(y_{s;k})=\max_{y \in [y_{s;k-1}, y_{s;k}]} L_{s;k}(y)=1. \end{equation*} \notag $$

Как следствие,

$$ \begin{equation} |L_{s;k}(y)| \leqslant 1 \quad \forall\, y \in [y_{s;k-1}, y_{s;k+1}]. \end{equation} \tag{5.15} $$

Оценим $|L_{s;k}(y)|$ для $y \in \mathbb R \setminus (y_{s;k-1}, y_{s;k+1})$. По определению имеем

$$ \begin{equation} L_{s;k} (y) :=\prod_{k' \in \pi_s,\,k'\ne k}\frac{y-y_{s;k'}}{y_{s;k}-y_{s;k'}} =A_{s;k} (y-y_{s;k})^{-1} H_{s+1}(y), \end{equation} \tag{5.16} $$

где

$$ \begin{equation} A_{s;k} :=((s+1)!)^{1/2}\prod_{k' \in \pi_s,\,k'\ne k}(y_{s;k}-y_{s;k'})^{-1}. \end{equation} \tag{5.17} $$

В монографии [55; (6.31.22))] доказано следующее неравенство:

$$ \begin{equation} \frac{\pi \sqrt{2}}{ \sqrt{2s+3}} \leqslant d_s \leqslant \frac{\sqrt{10.5}}{ \sqrt{2s+3}}, \end{equation} \tag{5.18} $$

где $d_s$ – минимальное расстояние между последовательными нулями $y_{s;k}$, $k\,{\in}\, \pi_s$. Отсюда

$$ \begin{equation*} |y-y_{s;k}|^{-1} \leqslant d_s^{-1} \leqslant \frac{ \sqrt{2s+3}}{\sqrt{10.5}} < \sqrt{s} \quad \forall\, y \in \mathbb R \setminus (y_{s;k-1}, y_{s;k+1}) \end{equation*} \notag $$

и, далее, при любых $s \in \mathbb N$ и $k, k' \in \pi_{s}$, $k' \ne k$,

$$ \begin{equation} |y_{s;k}-y_{s;k'}|^{-1} \leqslant C \frac{\sqrt{s}}{|k-k'|}, \end{equation} \tag{5.19} $$

что при всех $y \in \mathbb R \setminus (y_{s;k-1}, y_{s;k+1})$ влечет следующее неравенство:

$$ \begin{equation} \begin{aligned} \, \notag &|y- y_{s;k}|^{-1}|A_{s;k}| \leqslant\sqrt{s}\, ((s+1)!)^{1/2} \prod_{k' \in \pi_s,\,k'\ne k}|y_{s;k}-y_{s;k'}|^{-1} \\ \notag &\qquad \leqslant\sqrt{s}\, C^s \frac{((s+1)!)^{1/2}s^{s/2}}{k!\, (s-k)!} \leqslant \sqrt{s}\, C^s \binom{s}{k}\frac{((s+1)!)^{1/2}s^{s/2}}{s! } \\ &\qquad \leqslant \sqrt{s}\, (2C)^s \frac{((s+1)!)^{1/2}s^{s/2}}{s! } \leqslant e^{K_1 s}. \end{aligned} \end{equation} \tag{5.20} $$

Здесь на последнем шаге мы воспользовались формулой Стирлинга. Таким образом, мы доказали, что

$$ \begin{equation} |L_{s;k} (y)| \leqslant e^{K_1 s} |H_{s+1}(y)| \quad \forall\, y \in \mathbb R \setminus (y_{s;k-1}, y_{s;k+1}). \end{equation} \tag{5.21} $$

Полагая $I_{s;k}:=[y_{s;k-1}, y_{s;k+1}]$ и используя последнюю оценку и (5.15), имеем

$$ \begin{equation*} \begin{aligned} \, \|L_{s;k}\|_{L_2(\mathbb R,\gamma)}^2 &= \|L_{s;k}\|_{L_2(I_{s;k},\gamma)}^2+\|L_{s;k}\|_{L_2(\mathbb R \setminus I_{s;k},\gamma)}^2 \\ &\leqslant 1+e^{2K_1 s}\|H_s\|_{L_2(\mathbb R ,\gamma)}^2 =1+e^{2K_1 s} \leqslant e^{2K s}, \end{aligned} \end{equation*} \notag $$

что доказывает (5.13). Неравенство (5.14) доказывается аналогично с использованием (5.7). Лемма доказана.

Лемма 5.5. Пусть $p$ и $q$ – полиномы на $\mathbb R$ вида

$$ \begin{equation} p(y):=\sum_{k=0}^m a_k y^k, \qquad q(y):=\sum_{k=0}^{m-1} b_k y^k. \end{equation} \tag{5.22} $$

Предположим, что в некоторой точке $y_0 \in \mathbb R$ выполнено равенство $p(y)=(y-y_0) q(y)$. Тогда

$$ \begin{equation} |b_k| \leqslant \sum_{k=0}^m |a_k|, \qquad k=0, \dotsc, m-1. \end{equation} \tag{5.23} $$

Доказательство. По определению имеем

$$ \begin{equation} \sum_{k=0}^m a_k y^k = -b_0 y_0+\sum_{k=0}^{m-1} (b_{k-1}-b_k y_0) y^k+b_{m-1} y^m. \end{equation} \tag{5.24} $$

Отсюда

$$ \begin{equation} 0=a_0+b_0 y_0, \qquad b_k=a_{k+1}+b_{k+1} y_0, \quad k=1, \dotsc, m-2, \qquad b_{m-1}=a_m. \end{equation} \tag{5.25} $$

Последние равенства показывают, что при $y_0=0$ утверждение леммы тривиально. Соответственно, предположим, что $y_0 \ne 0$. При $|y_0| \leqslant 1$ из (5.25) находим, что

$$ \begin{equation} b_k=\sum_{j=k+1}^m a_j y_0^{j-k-1}, \end{equation} \tag{5.26} $$

и, следовательно,

$$ \begin{equation} |b_k| \leqslant \sum_{j=k+1}^m |a_j| |y_0|^{j-k-1} \leqslant \sum_{j=0}^m |a_j|. \end{equation} \tag{5.27} $$

Если $|y_0| > 1$, то из (5.25) имеем

$$ \begin{equation} b_k=- \sum_{j=0}^k a_j y_0^{-(k+1-j)}, \end{equation} \tag{5.28} $$

и, следовательно,

$$ \begin{equation} |b_k| \leqslant \sum_{j=0}^k |a_j| |y_0|^{-(k+1-j)} \leqslant \sum_{j=0}^m |a_j|. \end{equation} \tag{5.29} $$

Лемма доказана.

Лемма 5.6. Пусть $b^{s;k}_\ell$ – полиномиальные коэффициенты в представлении $L_{s;k}$ (как в (3.39)). Тогда для любых $s \in \mathbb N_0$ и $k \in \pi_s$ имеем

$$ \begin{equation*} \sum_{\ell=0}^s |b^{s;k}_\ell| \leqslant e^{Ks} s!, \end{equation*} \notag $$

где постоянная $K$ не зависит от $s$ и $k \in \pi_{s}$.

Доказательство. Для $s\in \mathbb N_0$ представим скалярный полином Эрмита $H_s$ в виде

$$ \begin{equation} H_s(y) := \sum_{\ell=0}^s a_{s,\ell} y^\ell. \end{equation} \tag{5.30} $$

Используя хорошо известное равенство

$$ \begin{equation} H_s(y)= s! \sum_{\ell=0}^{\lfloor{s}/{2} \rfloor} \frac{(-1)^\ell}{\ell!\,(s- 2\ell)!} \frac{y^{s-2\ell}}{2^\ell}, \end{equation} \tag{5.31} $$

получим, что

$$ \begin{equation} \sum_{\ell=0}^{s} |a_{s,\ell}| \leqslant s! \end{equation} \tag{5.32} $$

Далее, воспользовавшись (5.16), находим, что

$$ \begin{equation} A_{s;k}H_{s+1}(y) =(y-y_{s;k}) L_{s;k}(y), \end{equation} \tag{5.33} $$

где величина $A_{s;k}$ определена в (5.17). По лемме 5.5 с учетом (5.32) и (5.20) имеем

$$ \begin{equation*} \sum_{\ell=0}^s |b^{s;k}_\ell| \leqslant \sum_{\ell=0}^s A_{s;k}\sum_{\ell'=0}^{s+1} |a_{s+1,\ell'}| \leqslant e^{Ks} s!. \end{equation*} \notag $$

Лемма доказана.

Лемма 5.7. Пусть $\varphi (\boldsymbol{y})=\prod_{j=1}^m \varphi_j(y_j)$ при $\boldsymbol{y} \in \mathbb R^m$, где $\varphi_j$, $j=1,\dots,m$, – полином по переменной $y_j$ степени не более чем $\omega$. Тогда

$$ \begin{equation} \|\varphi\|_{L_2(\mathbb R^m{\setminus}B^m_\omega,\gamma)} \leqslant Cm \exp (- K\omega ) \|\varphi\|_{L_2(\mathbb R^m,\gamma)}, \end{equation} \tag{5.34} $$

$$ \begin{equation} \|\varphi\|_{L_\infty^{\sqrt{g}}(\mathbb R^m{\setminus}B^m_\omega)} \leqslant Cm \exp (- K\omega ) \|\varphi\|_{L_\infty^{\sqrt{g}}(\mathbb R^m)}, \end{equation} \tag{5.35} $$

где постоянные $C$ и $K$ не зависят от $\omega$, $m$ и $\varphi$.

Неравенство (5.34) было доказано в лемме 3.3 работы [17]; доказательство неравенства (5.35) аналогично и требует лишь небольшой модификации.

5.2. Доказательство теоремы 3.1

В случае $U={\mathbb R}^\infty$ эта теорема была доказана в следствии 3.11 работы [15]. Докажем ее для $U={\mathbb R}^M$. По лемме 3.1 ряд (3.8) сходится к $v$ безусловно в $L_2({\mathbb R}^M,X,\gamma)$. Отметим, что $I_{\Lambda(\xi)} H_{\boldsymbol{s}}=H_{\boldsymbol{s}}$ для любого $\boldsymbol{s} \in \Lambda(\xi)$ и $\Delta_{\boldsymbol{s}} H_{\boldsymbol{s}'}=0$ для любого $\boldsymbol{s} \not\leqslant \boldsymbol{s}'$. Как следствие, для замкнутого вниз множества $\Lambda(\xi) \subset {\mathbb N}_0^M$ имеем

$$ \begin{equation*} I_{\Lambda(\xi) }v =I_{\Lambda(\xi) }\biggl(\sum_{ \boldsymbol{s} \in {\mathbb N}_0^M} v_{\boldsymbol{s}} H_{\boldsymbol{s}}\biggr) =\sum_{ \boldsymbol{s} \in {\mathbb N}_0^M} v_{\boldsymbol{s}}I_{\Lambda(\xi) } H_{\boldsymbol{s}} =S_{\Lambda(\xi)} v +\sum_{\boldsymbol{s} \not\in \Lambda(\xi) } v_{\boldsymbol{s}}I_{\Lambda(\xi) \cap R_{\boldsymbol{s}}}H_{\boldsymbol{s}}, \end{equation*} \notag $$

где $R_{\boldsymbol{s}}:=\{\boldsymbol{s}' \in {\mathbb N}_0^M\colon\boldsymbol{s}' \leqslant \boldsymbol{s}\}$ и

$$ \begin{equation*} S_{\Lambda(\xi)} v:=\sum_{\boldsymbol{s} \in \Lambda(\xi) } v_{\boldsymbol{s}}H_{\boldsymbol{s}} \end{equation*} \notag $$

для элемента $v \in L_2({\mathbb R}^M,X,\gamma)$ с эрмитовым ОПРХ (3.8). Как следствие,

$$ \begin{equation} \|v- I_{\Lambda(\xi)} v\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M,X)} \leqslant\|v- S_{\Lambda(\xi)} v\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M,X)} +\sum_{\boldsymbol{s} \not\in \Lambda (\xi)} \|I_{\Lambda(\xi) \cap R_{\boldsymbol{s}}}H_{\boldsymbol{s}}\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M)}. \end{equation} \tag{5.36} $$

Таким образом, для доказательства леммы достаточно показать, что каждый член в правой части ограничен величиной $C\xi^{-(1/q-1/2)}$. Первый член оценивается следующим образом с использованием неравенства Коши–Буняковского и (5.7):

$$ \begin{equation} \begin{aligned} \, \notag &\|v- S_{\Lambda(\xi)}\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M,X)} \leqslant \sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } \|v_{\boldsymbol{s}}\|_{X}\|H_{\boldsymbol{s}}\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M)} \leqslant \sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } \|v_{\boldsymbol{s}}\|_{X} \\ \notag &\qquad\leqslant \biggl(\sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } (\sigma_{\boldsymbol{s}}\|v_{\boldsymbol{s}}\|_{X})^2\biggr)^{1/2} \biggl(\sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } \sigma_{\boldsymbol{s}}^{-2}\biggr)^{1/2} \leqslant C\biggl(\sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } \sigma_{\boldsymbol{s}}^{-q} \sigma_{\boldsymbol{s}}^{-(2- q)}\biggr)^{1/2} \\ &\qquad\leqslant C \xi^{-(1/q-1/2)} \biggl(\sum_{\boldsymbol{s} \in \mathbb N_0^M} \sigma_{\boldsymbol{s}}^{-q} \biggr)^{1/2} \leqslant C \xi^{-(1/q-1/2)}. \end{aligned} \end{equation} \tag{5.37} $$

Для оценки второго члена в правой части (5.36) имеем

$$ \begin{equation} \|I_{\Lambda(\xi) \cap R_{\boldsymbol{s}}}H_{\boldsymbol{s}}\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M)} \leqslant \sum_{\boldsymbol{s}' \in \Lambda(\xi) \cap R_{\boldsymbol{s}}} \|\Delta_{\boldsymbol{s}'} (H_{\boldsymbol{s}})\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M)}. \end{equation} \tag{5.38} $$

Оценим нормы справа. Для $\boldsymbol{s} \in {\mathbb N}_0^M$ и $\boldsymbol{s}' \in \Lambda(\xi) \cap R_{\boldsymbol{s}}$ имеем $\Delta_{\boldsymbol{s}'} (H_{\boldsymbol{s}})=\prod_{j=1}^M \Delta_{s'_j} (H_{s_j})$. Используя лемму 3.2 и (5.7), получаем

$$ \begin{equation*} \|\Delta_{s'_j} (H_{s_j})\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \leqslant (1+C_\varepsilon s'_j)^{1/6+\varepsilon}\|H_{s_j}\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \leqslant (1+C_\varepsilon s'_j)^{1/6+\varepsilon}, \end{equation*} \notag $$

откуда

$$ \begin{equation} \|\Delta_{\boldsymbol{s}'} (H_{\boldsymbol{s}})\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M)} =\prod_{j=1}^M \|\Delta_{s'_j} (H_{s_j})\|_{L_\infty^{\sqrt{g}}(\mathbb R)} \leqslant p_{\boldsymbol{s}'}(\theta_1,\lambda) \leqslant p_{\boldsymbol{s}}(\theta_1, \lambda), \end{equation} \tag{5.39} $$

где $\theta_1=1/6+\varepsilon$ и мы напомним, что $\lambda=C_\varepsilon$. Из (5.38) и (5.39) имеем

$$ \begin{equation*} \begin{aligned} \, \|I_{\Lambda(\xi) \cap R_{\boldsymbol{s}}}H_{\boldsymbol{s}}\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M)} &\leqslant \sum_{\boldsymbol{s}' \in \Lambda(\xi) \cap R_{\boldsymbol{s}}}p_{\boldsymbol{s}}(\theta_1, \lambda) \leqslant |R_{\boldsymbol{s}}|p_{\boldsymbol{s}}(\theta_1, \lambda) \\ &\leqslant p_{\boldsymbol{s}}(1,1)p_{\boldsymbol{s}}(\theta_1, \lambda) \leqslant p_{\boldsymbol{s}}(\theta/2, \lambda). \end{aligned} \end{equation*} \notag $$

Используя эти оценки и учитывая предположение $\|\boldsymbol{p}(\theta/q,\lambda)\boldsymbol{\sigma}^{-1}\|_{\ell_q(\mathbb N_0^M)}{\kern1pt}{\leqslant}\, C \,{<}\, \infty$, где положительная постоянная $C$ не зависит от $M$, мы получаем следующую оценку второго члена в правой части (5.36):

$$ \begin{equation*} \begin{aligned} \, &\sum_{\boldsymbol{s} \not\in \Lambda (\xi)} \|I_{\Lambda(\xi) \cap R_{\boldsymbol{s}}}H_{\boldsymbol{s}}\|_{L_{\infty}^{\sqrt{g}}({\mathbb R}^M)} \leqslant C \sum_{\boldsymbol{s} \not\in \Lambda (\xi)} \|v_{\boldsymbol{s}}\|_{X}p_{\boldsymbol{s}}\biggl(\frac\theta2,\lambda\biggr) \\ &\qquad \leqslant C\biggl(\sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } (\sigma_{\boldsymbol{s}}\|v_{\boldsymbol{s}}\|_{X})^2\biggr)^{1/2} \biggl(\sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } p_{\boldsymbol{s}} \biggl(\frac\theta2,\lambda\biggr)^2 \sigma_{\boldsymbol{s}}^{-2}\biggr)^{1/2} \\ &\qquad \leqslant C\biggl(\sum_{\sigma_{\boldsymbol{s}}> \xi^{1/q} } p_{\boldsymbol{s}}\biggl(\frac{\theta}2,\lambda\biggr)^2 \sigma_{\boldsymbol{s}}^{-q} \sigma_{\boldsymbol{s}}^{-(2- q)}\biggr)^{1/2} \\ &\qquad \leqslant C \xi^{-(1/q-1/2)} \biggl(\sum_{\boldsymbol{s} \in \mathbb N_0^M} p_{\boldsymbol{s}}(\theta,\lambda) \sigma_{\boldsymbol{s}}^{-q} \biggr)^{1/2} \leqslant C \xi^{-(1/q-1/2)}. \end{aligned} \end{equation*} \notag $$

С учетом (5.36) и (5.37) это доказывает теорему 3.1.

Благодарность

Часть настоящего исследования была выполнена автором во Вьетнамском институте перспективных математических исследований (Vietnam Institute for Advanced Study in Mathematics). Автор выражает благодарность институту за плодотворную исследовательскую атмосферу и замечательные условия для работы.



Список литературы

1.	M. Ali, A. Nouy, “Approximation of smoothness classes by deep rectifier networks”, SIAM J. Numer. Anal., 59:6 (2021), 3032–3051
2.	R. Arora, A. Basu, P. Mianjy, A. Mukherjee, Understanding deep neural networks with rectified linear units, Electronic colloquium on computational complexity, report No. 98, 2017, 21 pp. https://eccc.weizmann.ac.il/report/2017/098/
3.	M. Bachmayr, A. Cohen, Dinh Dũng, Ch. Schwab, “Fully discrete approximation of parametric and stochastic elliptic PDEs”, SIAM J. Numer. Anal., 55:5 (2017), 2151–2186
4.	M. Bachmayr, A. Cohen, R. DeVore, G. Migliorati, “Sparse polynomial approximation of parametric elliptic PDEs. Part II: Lognormal coeffcients”, ESAIM Math. Model. Numer. Anal., 51:1 (2017), 341–363
5.	M. Bachmayr, A. Cohen, G. Migliorati, “Sparse polynomial approximation of parametric elliptic PDEs. Part I: Affine coefficients”, ESAIM Math. Model. Numer. Anal., 51:1 (2017), 321–339
6.	A. R. Barron, “Complexity regularization with application to artificial neural networks”, Nonparametric functional estimation and related topics (Spetses, 1990), NATO Adv. Sci. Inst. Ser. C: Math. Phys. Sci., 335, Kluwer Acad. Publ., Dordrecht, 1991, 561–576
7.	A. Chkifa, A. Cohen, R. DeVore, Ch. Schwab, “Sparse adaptive Taylor approximation algorithms for parametric and stochastic elliptic PDEs”, ESAIM Math. Model. Numer. Anal., 47:1 (2013), 253–280
8.	A. Chkifa, A. Cohen, Ch. Schwab, “High-dimensional adaptive sparse polynomial interpolation and applications to parametric PDEs”, Found. Comput. Math., 14:4 (2014), 601–633
9.	A. Chkifa, A. Cohen, Ch. Schwab, “Breaking the curse of dimensionality in sparse polynomial approximation of parametric PDEs”, J. Math. Pures Appl. (9), 103:2 (2015), 400–428
10.	A. Cohen, R. DeVore, “Approximation of high-dimensional parametric PDEs”, Acta Numer., 24 (2015), 1–159
11.	A. Cohen, R. DeVore, Ch. Schwab, “Convergence rates of best $N$-term Galerkin approximations for a class of elliptic sPDEs”, Found. Comput. Math., 10:6 (2010), 615–646
12.	A. Cohen, R. DeVore, Ch. Schwab, “Analytic regularity and polynomial approximation of parametric and stochastic elliptic PDE's”, Anal. Appl. (Singap.), 9:1 (2011), 11–47
13.	G. Cybenko, “Approximation by superpositions of a sigmoidal function”, Math. Control Signals Systems, 2:4 (1989), 303–314
14.	Динь Зунг, “Линейная совместная коллокационная аппроксимация для параметрических и стохастических эллиптических дифференциальных уравнений с частными производными”, Матем. сб., 210:4 (2019), 103–127 ; англ. пер.: Dinh Dũng, “Linear collective collocation approximation for parametric and stochastic elliptic PDEs”, Sb. Math., 210:4 (2019), 565–588
15.	Dinh Dũng, “Sparse-grid polynomial interpolation approximation and integration for parametric and stochastic elliptic PDEs with lognormal inputs”, ESAIM Math. Model. Numer. Anal., 55:3 (2021), 1163–1198
16.	Dinh Dũng, Van Kien Nguyen, “Deep ReLU neural networks in high-dimensional approximation”, Neural Netw., 142 (2021), 619–635
17.	Dinh Dũng, Van Kien Nguyen, Duong Thanh Pham, Deep ReLU neural network approximation of parametric and stochastic elliptic PDEs with lognormal inputs, arXiv: 2111.05854v1
18.	Dinh Dũng, Van Kien Nguyen, Ch. Schwab, J. Zech, Analyticity and sparsity in uncertainty quantification for PDEs with Gaussian random field inputs, arXiv: 2201.01912
19.	Dinh Dũng, Van Kien Nguyen, Mai Xuan Thao, “Computation complexity of deep ReLU neural networks in high-dimensional approximation”, J. Comp. Sci. Cybern., 37:3 (2021), 292–320
20.	I. Daubechies, R. DeVore, S. Foucart, B. Hanin, G. Petrova, “Nonlinear approximation and (deep) ReLU networks”, Constr. Approx., 55:1 (2022), 127–172
21.	R. DeVore, B. Hanin, G. Petrova, “Neural network approximation”, Acta Numer., 30 (2021), 327–444
22.	Weinan E, Qingcan Wang, “Exponential convergence of the deep neural network approximation for analytic functions”, Sci. China Math., 61:10 (2018), 1733–1740
23.	D. Elbrächter, P. Grohs, A. Jentzen, Ch. Schwab, DNN expression rate analysis of high-dimensional PDEs: application to option pricing, SAM res. rep. 2018-33, Seminar for Applied Mathematics, ETH Zürich, Zürich, 2018, 50 pp. https://www.sam.math.ethz.ch/sam_reports/reports_final/reports2018/2018-33.pdf
24.	O. G. Ernst, B. Sprungk, L. Tamellini, “Convergence of sparse collocation for functions of countably many Gaussian random variables (with application to elliptic PDEs)”, SIAM J. Numer. Anal., 56:2 (2018), 877–905
25.	K.-I. Funahashi, “Approximate realization of identity mappings by three-layer neural networks”, Electron. Comm. Japan Part III Fund. Electron. Sci., 73:11 (1990), 61–68
26.	M. Geist, P. Petersen, M. Raslan, R. Schneider, G. Kutyniok, “Numerical solution of the parametric diffusion equation by deep neural networks”, J. Sci. Comput., 88:1 (2021), 22, 37 pp.
27.	L. Gonon, Ch. Schwab, Deep ReLU network expression rates for option prices in high-dimensional, exponential Lévy models, SAM res. rep. 2020-52 (rev. 1), Seminar for Applied Mathematics, ETH Zürich, Zürich, 2021, 35 pp. https://www.sam.math.ethz.ch/sam_reports/reports_final/reports2020/2020-52_rev1.pdf
28.	L. Gonon, Ch. Schwab, Deep ReLU neural network approximation for stochastic differential equations with jumps, SAM res. rep. 2021-08, Seminar for Applied Mathematics, ETH Zürich, Zürich, 2021, 35 pp. https://www.sam.math.ethz.ch/sam_reports/reports_final/reports2021/2021-08.pdf
29.	R. Gribonval, Kutyniok, M. Nielsen, F. Voigtländer, “Approximation spaces of deep neural networks”, Constr. Approx., 55:1 (2022), 259–367
30.	P. Grohs, L. Herrmann, “Deep neural network approximation for high-dimensional elliptic PDEs with boundary conditions”, IMA J. Numer. Anal., 42:3 (2022), 2055–2082
31.	D. Elbrachter, D. Perekrestenko, P. Grohs, H. Bölcskei, “Deep neural network approximation theory”, IEEE Trans. Inform. Theory, 67:5 (2021), 2581–2623
32.	I. Gühring, G. Kutyniok, P. Petersen, “Error bounds for approximations with deep ReLU neural networks in $W^{s,p}$ norms”, Anal. Appl. (Singap.), 18:5 (2020), 803–859
33.	L. Herrmann, J. A. A. Opschoor, Ch. Schwab, Constructive deep ReLU neural network approximation, SAM res. rep. 2021-04, Seminar for Applied Mathematics, ETH Zürich, Zürich, 2021, 32 pp. https://www.sam.math.ethz.ch/sam_reports/reports_fi-nal/reports2021/2021-04.pdf
34.	L. Herrmann, Ch. Schwab, J. Zech, “Deep neural network expression of posterior expectations in Bayesian PDE inversion”, Inverse Problems, 36:12 (2020), 125011, 32 pp.
35.	E. Hewitt, K. Stromberg, Real and abstract analysis. A modern treatment of the theory of functions of a real variable, Springer-Verlag, New York, 1965, vii+476 pp.
36.	Viet Ha Hoang, Ch. Schwab, “$N$-term Wiener chaos approximation rates for elliptic PDEs with lognormal Gaussian random inputs”, Math. Models Methods Appl. Sci., 24:4 (2014), 797–826
37.	K. Hornik, M. Stinchcombe, H. White, “Multilayer feedforward networks are universal approximators”, Neural Netw., 2:5 (1989), 359–366
38.	G. Kutyniok, P. Petersen, M. Raslan, R. Schneider, “A theoretical analysis of deep neural networks and parametric PDEs”, Constr. Approx., 55:1 (2022), 73–125
39.	Jianfeng Lu, Zuowei Shen, Haizhao Yang, Shijun Zhang, “Deep network approximation for smooth functions”, SIAM J. Math. Anal., 53:5 (2021), 5465–5506
40.	D. M. Matjila, “Bounds for Lebesgue functions for Freud weights”, J. Approx. Theory, 79:3 (1994), 385–406
41.	D. M. Matjila, “Convergence of Lagrange interpolation for Freud weights in weighted $L_p(\mathbb R)$, $0 < P \le 1$”, Nonlinear numerical methods and rational approximation. II (Wilrijk, 1993), Math. Appl., 296, Kluwer Acad. Publ., Dordrecht, 1994, 25–35
42.	H. N. Mhaskar, “Neural networks for optimal approximation of smooth and analytic functions”, Neural Comput., 8 (1996), 164–177
43.	H. Montanelli, Qiang Du, “New error bounds for deep ReLU networks using sparse grids”, SIAM J. Math. Data Sci., 1:1 (2019), 78–92
44.	G. Montúfar, R. Pascanu, Kyunghyun Cho, Yoshua Bengio, “On the number of linear regions of deep neural networks”, NIPS 2014, Adv. Neural Inf. Process. Syst., 27, MIT Press, Cambridge, MA, 2014, 2924–2932 http://proceedings.neurips.cc/paper/2014
45.	J. A. A. Opschoor, Ch. Schwab, J. Zech, Deep learning in high dimension: ReLU network expression rates for Bayesian PDE inversion, SAM res. rep. 2020-47, Seminar for Applied Mathematics, ETH Zürich, Zürich, 2020, 50 pp. https://www.sam.math.ethz.ch/sam_reports/reports_final/reports2020/2020-47.pdf
46.	J. A. A. Opschoor, Ch. Schwab, J. Zech, “Exponential ReLU DNN expression of holomorphic maps in high dimension”, Constr. Approx., 55:1 (2022), 537–582
47.	P. C. Petersen, Neural network theory, 2022, 60 pp. http://pc-petersen.eu/Neural_Network_Theory.pdf
48.	P. Petersen, F. Voigtlaender, “Optimal approximation of piecewise smooth functions using deep ReLU neural networks”, Neural Netw., 108 (2018), 296–330
49.	Ch. Schwab, J. Zech, “Deep learning in high dimension: Neural network expression rates for generalized polynomial chaos expansions in UQ”, Anal. Appl. (Singap.), 17:1 (2019), 19–55
50.	Ch. Schwab, J. Zech, Deep learning in high dimension: neural network approximation of analytic functions in $L^2(\mathbb R^d, \gamma_d)$, arXiv: 2111.07080
51.	Zuowei Shen, Haizhao Yang, Shijun Zhang, “Deep network approximation characterized by number of neurons”, Commun. Comput. Phys., 28:5 (2020), 1768–1811
52.	J. Sirignano, K. Spiliopoulos, “DGM: a deep learning algorithm for solving partial differential equations”, J. Comput. Phys., 375 (2018), 1339–1364
53.	T. Suzuki, Adaptivity of deep ReLU network for learning in Besov and mixed smooth Besov spaces: optimal rate and curse of dimensionality, ICLR 2019: International conference on learning representations (New Orleans, LA, 2019) https://openreview.net/pdf?id=H1ebTsActm
54.	J. Szabados, “Weighted Lagrange and Hermité–Fejér interpolation on the real line”, J. Inequal. Appl., 1:2 (1997), 99–123
55.	Г. Сегё, Ортогональные многочлены, Физматлит, М., 1962, 500 с. ; пер. с англ.: G. Szegö, Orthogonal polynomials, Amer. Math. Soc. Colloq. Publ., 23, Amer. Math. Soc., New York, 1939, ix+401 с.
56.	M. Telgarsky, Representation benefits of deep feedforward networks, arXiv: 1509.08101
57.	M. Telgrasky, “Benefits of depth in neural nets”, 29th annual conference on learning theory (Columbia Univ., New York, NY, 2016), Proceedings of Machine Learning Research (PMLR), 49, 2016, 1517–1539 https://proceedings.mlr.press/v49/telgarsky16.html
58.	R. K. Tripathy, I. Bilionis, “Deep UQ: learning deep neural network surrogate models for high dimensional uncertainty quantification”, J. Comput. Phys., 375 (2018), 565–588
59.	D. Yarotsky, “Error bounds for approximations with deep ReLU networks”, Neural Netw., 94 (2017), 103–114
60.	D. Yarotsky, “Optimal approximation of continuous functions by very deep ReLU networks”, 31st annual conference on learning theory, Proceedings of Machine Learning Research (PMLR), 75, 2018, 639–649 https://proceedings.mlr.press/v75/yarotsky18a.html
61.	J. Zech, Dinf Dũng, Ch. Schwab, “Multilevel approximation of parametric and stochastic PDES”, Math. Models Methods Appl. Sci., 29:9 (2019), 1753–1817
62.	J. Zech, Ch. Schwab, “Convergence rates of high dimensional Smolyak quadrature”, ESAIM Math. Model. Numer. Anal., 54:4 (2020), 1259–1307

Образец цитирования: Динь Зунг, “Коллокационная аппроксимация глубокими $\mathrm{ReLU}$-нейронными сетями решений параметрических и стохастических уравнений с частными производными c логнормальными входами”, Матем. сб., 214:4 (2023), 38–75; Dinh Dũng, “Collocation approximation by deep neural ReLU networks for parametric and stochastic PDEs with lognormal inputs”, Sb. Math., 214:4 (2023), 479–515

Цитирование в формате AMSBIB

\RBibitem{Din23}

\by Динь~Зунг

\paper Коллокационная аппроксимация глубокими $\mathrm{ReLU}$-нейронными сетями решений параметрических и стохастических уравнений с~частными производными c логнормальными входами

\jour Матем. сб.

\yr 2023

\vol 214

\issue 4

\pages 38--75

\mathnet{http://mi.mathnet.ru/sm9791}

\crossref{https://doi.org/10.4213/sm9791}

\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=4653192}

\zmath{https://zbmath.org/?q=an:1535.65013}

\adsnasa{https://adsabs.harvard.edu/cgi-bin/bib_query?2023SbMat.214..479D}

\transl

\by Dinh~D\~ung

\paper Collocation approximation by deep neural ReLU networks for parametric and stochastic PDEs with lognormal inputs

\jour Sb. Math.

\yr 2023

\vol 214

\issue 4

\pages 479--515

\crossref{https://doi.org/10.4213/sm9791e}

\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=001086876100002}

\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85176607881}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/sm9791

https://doi.org/10.4213/sm9791

https://www.mathnet.ru/rus/sm/v214/i4/p38

Эта публикация цитируется в следующих 2 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	314
PDF русской версии:	22
PDF английской версии:	56
HTML русской версии:	119
HTML английской версии:	131
Список литературы:	37
Первая страница:	4

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы