|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Машинное обучение в хорошо известных сюжетах
В. В. Долотинabc, А. Ю. Морозовabc, А. В. Пополитовabc a Московский физико-технический институт (национальный исследовательский университет), Долгопрудный,
Московская обл., Россия
b Институт теоретической и экспериментальной физики им. А. И. Алиханова Национального исследовательского центра "Курчатовский Институт",
Москва, Россия
c Институт проблем передачи информации им. А. А. Харкевича Российской академии наук, Москва, Россия
Аннотация:
Машинное обучение в его современной формулировке подразумевает, что ответ любой задачи можно приблизить функцией очень специального вида: специально подобранной композицией тета-функций Хевисайда. Естественно задаться вопросом, могут ли некоторые уже известные ответы на вопросы быть представлены в этой форме. Приведены элементарные, но неочевидные примеры того, что это действительно возможно, и предложено начать систематическую переформулировку существующего знания на языке, совместимом с машинным обучением. Успех либо неудача этих попыток может пролить свет на целый ряд проблем, как научных, так и эпистемиологических.
Ключевые слова:
точные подходы к квантовым теориям поля, нелинейная алгебра, машинное обучение, метод наискорейшего спуска.
Поступило в редакцию: 02.12.2022 После доработки: 06.12.2022
1. Введение Для машинного обучения (МО) в настоящее время предлагаются применения в самых разных областях как фундаментальной, так и прикладной науки. Почти десятилетие оно является инструментом экспериментальной физики, где используется для учета особенностей того или иного экземпляра экспериментального прибора (см., например, обзор [1]). Недавно были предприняты попытки применить МО к нескольким сюжетам в теоретической и математической физике. В частности, в работе [2] (см. также [3] в качестве менее амбициозной попытки) МО было использовано для того, чтобы найти гипотетические взаимосвязи между различными инвариантами узлов1[x]1Теория узлов и ассоциированные с ней аспекты теории представлений в настоящее время являются одним из наиболее актуальных сюжетов в математической физике, сродни конформным теориям поля в 80-е годы XX века (см., например, [4]–[6], чтобы составить впечатление о недавнем стремительном прогрессе в этом направлении).. А в работе [7] подходы и методы МО используют в качестве возможной замены честному вычислению амплитуд рассеяния в квантовой теории поля, в диаграммной технике Мацубары при конечной температуре. Эти исследования ставят вопрос о том, может ли МО быть хорошим или по крайней мере приемлемым инструментом в задаче открытия новых законов математической физики. В таком виде этот вопрос чрезвычайно широк и абстрактен, и, чтобы его конкретизировать и сделать более доступным для изучения, в этой работе мы строим свои рассуждения следующим образом. Наш вывод состоит в том, что переход к использованию МО не решает автоматически всех проблем. Когда ответ, который должна получить нейронная сеть, известен заранее, можно ограничить архитектуру нейронной сети (соответствующим образом подстроив число уровней и их размерности) таким образом, что задуманный ответ действительно будет воспроизведен. Однако беспокойство вызывает то, что если заранее известен другой ответ (и, следовательно, нейронная сеть преднастроена с учетом формы этого ответа), то нейронная сеть сходится к этому новому ответу. Следовательно, можно сделать вывод, что нейронная сеть не открывает никаких новых законов (формул), кроме тех, которые уже были придуманы ученым и заложены (осознанно или нет) в архитектуру сети. Если же пытаться обойти это тонкое место2[x]2В данной работе мы касаемся этого аспекта очень кратко, оставляя детальный анализ для будущих исследований. путем намеренного недостаточного ограничения нейронной сети, процесс обучения не сходится никогда, он неспособен различить между собой множество эквивалентных (для машины – не для человека) формул/законов. Резюмируя, заметим, что МО определенно является дополнительным инструментом в арсенале исследователя, который может стать незаменимым в руках искусного ученого. Тем не менее нужно дополнительно разбираться с тем, как применять этот потенциально мощный набор техник правильно и корректно, чтобы не внести нежелательные предположения и ограничения в изучаемую проблему.
2. Подход МО Представим, что мы хотим сопоставить величину $Z$ некоторым данным $\vec X$ (например, распознать кошку на фото, т. е. сопоставить надпись-ярлык набору пикселей), т. е. найти функцию $g\colon\vec X\longrightarrow Z$. Для этого мы используем заданный набор примеров, занумерованных индексом $\alpha$, и постулируем ответы $Z^\alpha$ для каждого элемента множества $\vec X^{(\alpha)}$. Идея МО состоит в том, чтобы искать функцию $g\colon\vec X\longrightarrow Z$ посредством: а) применения метода наименьших квадратов – минимизации функционала вида
$$
\begin{equation}
\mathcal L:=\sum_\alpha L^{(\alpha)} :=\sum_\alpha|Z^{(\alpha)}-G(\vec X^{(\alpha)}| W)|^2;
\end{equation}
\tag{1}
$$
б) специального анзаца $G(\vec X| W)$, который представляет собой комбинацию сигма-функций:
$$
\begin{equation}
G(\vec X| W)=\sum_{i_1,i}W_2^{i_1}\sigma(W_1^{i_1i}X_i+b_1^{i_1i})+b_2^{i_1}.
\end{equation}
\tag{2}
$$
Параметры, которые можно менять, – это коэффициенты $W$, и минимум функционала $L$ находится путем последовательного применения метода наискорейшего спуска, т. е. посредством решения следующего уравнения эволюции:
$$
\begin{equation}
\dot W=-\frac{\partial\mathcal L}{\partial W}
\end{equation}
\tag{3}
$$
для всех возможных параметров $W$ в пределе бесконечного времени $t\to\infty$. В результате мы получаем функцию $\overline G(\vec X)\equiv G(\vec X|\overline W)$, которая имеет вид (2), т. е. выражается через сигма-функции с соответствующими (оптимальными) значениями параметров $W=\overline W$. Обычно $\sigma(x)$ берут в виде несколько сглаженной функции Хевисайда $\theta(x)$, например функции $\sigma(x)=\operatorname{arth}(kx)$, но возможно также выбрать ее и другим образом. Очевидным обобщением анзаца (2) является повторение применения сигма-функции,
$$
\begin{equation}
\begin{aligned} \, &G(\vec X| W)= \nonumber\\ &=\kern-6pt\sum_{i,i_1,\ldots,i_m}\kern-6pt W_{m+1}^{i_m} \sigma\bigl(W_m^{i_{m}i_{m-1}}\sigma(\dotsb\sigma(W_2^{i_2i_1}\sigma(W_1^{i_1 i}X_i +b_1^{i_1i})+b_2^{i_2i_1})\dotsb)+b^{i_m i_{m-1}}_{m}\bigr) + b^{i_m}_{m+1}. \end{aligned}
\end{equation}
\tag{4}
$$
Общее число $m$ таких сигма-функций в этой “аппроксимации” называется глубиной (т. е. числом уровней) алгоритма МО. Также возможно комбинировать сигма-функции друг с другом более сложным образом, это называется архитектурой алгоритма (сети). Также функция ошибки $L$ может быть более сложной, например не обязательно делать аргументы сигма-функции линейными по $X$ – иногда выбор полиномов более высокой степени приводит к экспоненциальному росту эффективности алгоритма в конкретных обстоятельствах. Наконец, возможны более хитрые постановки задачи обучения, такие как обучение без учителя или обучение ГРС (генеративно-распознавательных сетей). Для простоты в этой статье мы ограничиваемся рассмотрением тривиальной многоуровневой архитектуры с простейшими тета-функциями Хевисайда $\sigma(x)=\theta(x)$ и простейшим функционалом ошибки (1). Иными словами, МО предлагает искать ответ задачи в довольно специальном виде (4), который не представляется знакомым с точки зрения других областей науки. В то же время явные успехи МО наводят на мысль, что этот вид (последовательное применение $\sigma(x)$) может быть достаточно подходящим. Тем самым естественно возникает вопрос: можно ли переформулировать ответы, которые мы уже знаем, в таком виде, и насколько это сложно, а также насколько естественна такая переформулировка? Эти вопросы мы затрагиваем в настоящей статье. Мы представляем набор элементарных примеров, которые могут пролить свет на эту загадку. В этих примерах мы находим явный вид отображения $G(\vec X)$ через сигма-функции (на самом деле функции Хевисайда) исходя из соображений обычной (не МО) науки. Обозначим этот вид отображения через $\mathcal G(\vec X)$. Отсюда следует выражение для тестовой функции МО $G(\vec X| W)$, которая может сойтись к
$$
\begin{equation}
\overline G(\vec X)\equiv G(\vec X| W)=\mathcal G(\vec X).
\end{equation}
\tag{5}
$$
Иными словами, если известный ответ может быть “хевисайдизирован”, то это означает, что есть процесс МО, который имеет хорошие шансы воспроизвести этот ответ. Если же “хевисайдизированную” версию придумать не удается, то есть проблема: “ответ”, который дает МО, не может быть правильным. Представляющееся правдоподобным разрешение этого парадокса состоит в том, что “ответ” МО нестабилен относительно вариации начальных условий.
3. Примеры3.1. Нахождение нуля функции Пусть имеется функция $y=F(x)$ и мы хотим найти ее ноль. Ответ на этот вопрос, очевидно, дается формулой
$$
\begin{equation}
\mathcal G\equiv\mathrm{zero\,of\, }F=\int_{dx}\,xF'(x)\delta(F(x))
\end{equation}
\tag{6}
$$
при условии, что у функции $F(x)$ есть только один ноль. В противном случае эта формула дает сумму координат всех нулей. Можно легко представить этот ответ в МО виде:
$$
\begin{equation}
\mathcal G=\int_{dx}\,x\theta'(F(x)).
\end{equation}
\tag{7}
$$
Левая часть равенства дает правильный ответ в случае, когда у функции ровно один ноль (т. е. когда задача хорошо поставлена), а правая часть равенства явно представляет этот ответ в МО виде (2). Дискретизация этой формулы, когда интеграл заменяется на сумму по точкам, например, единичного отрезка $x\to k/N$, $k=1,\dots,N$, имеет вид
$$
\begin{equation}
\mathcal G=\sum_{k=1}^N\frac{k}{N} \biggl\{\theta\biggl(F\biggl(\frac{x_k}{N}\biggr)\biggr) -\theta\biggl(F\biggl(\frac{x_{k-1}}{N}\biggr)\biggr)\biggr\} =\sum_{k=1}^N\frac{k}{N}(\theta(f_k)-\theta(f_{k-1})).
\end{equation}
\tag{8}
$$
Функция Хевисайда отображает весь диапазон значений функции $f=F(x)$ всего в два значения:
$$
\begin{equation}
\theta(f)=\begin{cases} 1, &f\geqslant 0, \\ 0, &f<0, \end{cases}
\end{equation}
\tag{9}
$$
т. е. не меняется, если только график гладкой функции не пересекает ноль. Формула устроена так, что она реагирует на это пересечение и учитывает его с соответствующим весом. Таким образом, МО функцию ошибки $L$ в формуле (1) можно выбрать в виде
$$
\begin{equation}
L\{f\}=\biggl|\sum_{i=1}^N\frac{i}{N}(\theta(f_i)-\theta(f_{i-1})) -\sum_{i_1,i}W_2^{i_1}\sigma(W_1^{i_1,i}f_i)\biggr|^2
\end{equation}
\tag{10}
$$
и можно ожидать, что метод наискорейшего спуска сойдется к точке
$$
\begin{equation}
W_1^{i_1,i}=\delta_{i_1,i},\qquad W_2^{i_1}=\frac{i_1}{N}-\frac{i_1+1}{N}.
\end{equation}
\tag{11}
$$
Можно легко убедиться, что это и в самом деле так, в случае, если взять сигма-функцию по форме достаточно близкой к тета-функции Хевисайда. 3.2. Альтернативная архитектура При помощи похожих, но несколько отличающихся в деталях, соображений можно прийти к другой форме (архитектуре) ответа на задачу о нахождении нуля функции. Приводим их здесь. Первым шагом в постановке задачи МО (с учителем) является предъявление компьютеру списка “правильных” решений задачи (так называемого тренировочного множества), из которого он, в случае успешного обучения, сможет вытянуть общий рецепт ответа. Для нашей задачи данные будут состоять из большого числа функций вместе с координатами их нулей. Для простоты предположим, что у каждой функции в тренировочном множестве и в самом деле только один ноль. Способ представления тренировочных данных играет в эффективности обучения большую роль. Предположим, что каждая функция задается своими значениями на некоторой сетке, например $x_i=i$, $i=1,\dots,M$. В этом случае можно придумать следующий алгоритм нахождения нуля функции: перебирая по циклу последовательные пары значений функции $(y_i,y_{i+1}),\dots$, искать ситуацию, когда знаки этой пары различны, – в этом случае у нас есть гипотетический ноль между $x=i$ и $x=i+1$. Этот алгоритм переводится на язык МО следующим образом:
$$
\begin{equation}
x_{\mathrm{zero}}=\text{AvgCoord}\biggl(\,\sum_{m=1}^M\sum_{l=1}^{2 M} \sum_{k=1}^{2 M}\sum_{i=1}^M\sigma(B^{(3)}_m+W^{(3)}_{ml}\sigma (B^{(2)}_l+ W^{(2)}_{lk}\sigma(B^{(1)}_k+W^{(1)}_{ki}y_i)))\biggr),
\end{equation}
\tag{12}
$$
где
$$
\begin{equation}
\begin{aligned} \, W^{(1)}_{ki}&=\delta_{k,i}-\delta_{k,i+M},\qquad B^{(1)}_k=0, \\ W^{(2)}_{lk}&=\delta_{l,k}+\delta_{l,k+M+1}+\delta_{l+M-1,k},\qquad B^{(2)}_l=-1.5, \\ W^{(3)}_{ml}&=\delta_{m,l}+\delta_{m+M,l},\qquad B^{(3)}_m=0, \end{aligned}
\end{equation}
\tag{13}
$$
$$
\begin{equation*}
\text{AvgCoord}(v)=\sum_{i=1}^Mi\cdot v_i.
\end{equation*}
\notag
$$
В самом деле, при применении первого уровня сети $\sigma(B^{(1)}_k+W^{(1)}_{ki}y_i)$ получается $2M$-мерный вектор из (приблизительно) единиц и нулей, в котором на первых $1,\dots,M$ позициях единица означает, что соответствующее значение $y_i$ больше нуля, а на последних $M+1,\dots,2M$ позициях – что соответствующее значение $y_i$ меньше нуля. При применении второго слоя $\sigma(B^{(2)}_l+W^{(2)}_{lk}\boldsymbol{\cdot})$ получается $2M$-мерный вектор, в котором на $l$-й позиции единица означает, что $y_l>0$ и $y_{l+1}<0$, а на ($l+M$)-й позиции единица означает, что $y_{l-1}<0$ и $y_l>0$. Такой эффект достигается путем подстройки специального коэффициента “предвзятости” $B^{(2)}$. При применении третьего слоя сети получится уже $M$-мерный вектор, в котором единица на $l$-й позиции означает, что функция меняет знак в окрестности $l$. Наконец, функция $\text{AvgCoord}$ вычисляет среднее значение координат вектора. Итак, уже видна проблема (потенциальное достоинство) подхода МО. В зависимости от нашего предшествующего знания о задаче, которое мы вносим в нашу МО модель посредством выбора архитектуры (анзаца), процесс обучения сходится либо к точке (11), либо к точке (13), в любом случае подтверждая нашу пресуппозицию. Мы видим здесь потенциальные ростки проблемы опровержимости: процесс МО подтверждает (исполняет) оба наши исходных правдоподобных предположения (предсказания). Следовательно дополнительные соображения необходимы для того, чтобы выбрать правильную (или, например, более экономную) гипотезу. 3.3. Задача умножения чисел Даже более фундаментальным может быть применение МО к задачам сложения и перемножения целых чисел. Каждая операция позволяет разложить величину на некие элементарные составляющие. Для сложения такой элементарный строительный блок – это единица: любое натуральное число можно получить, складывая единицы. Однако элементарных объектов для операции умножения много, и они образуют плохо понятое (хотя многое и известно) множество простых чисел – самое загадочное явление природы, с которым, как постепенно выясняется, все прочие загадки природы оказываются тесно связаны (через аделические конструкции, дзета-функции, мотивы и т. д.). Часто говорят, что “целые числа – это творение Божье”, как, возможно, и человеческий интеллект. Таким образом, вопрос о том, может ли МО выучить правила перемножения чисел, а также свойства простых чисел, чрезвычайно важен. Фактически сложение и умножение рассматриваются в качестве тривиальных (хорошо понятых) операций в (4), и можно думать, что их уже не надо выражать через тета-функции Хевисайда. Однако следует обратить внимание на то обстоятельство, что в (4) имеется в виду сложение и умножение вещественных и комплексных, а не целых чисел. Между тем, для целых, а также рациональных чисел постановка задачи о “хевисайдизации” умножения и сложения имеет смысл и может быть легко разрешена. Для сложения положительных целых чисел один из вариантов формулы имеет вид
$$
\begin{equation}
a+b=\sum_{i=1}^\infty\theta(a-i)+\sum_{i=1}^\infty\theta(b-i),
\end{equation}
\tag{14}
$$
где суммы содержат по $a$ и $b$ единиц соответственно. Это не зависит от верхнего предела суммирования, который можно выбрать достаточно большим числом, превышающим все необходимые $a$ и $b$. На языке МО это решение означает, что мы используем следующую тест-функцию:
$$
\begin{equation}
G=\sum_iw_1^i\sigma(w_0^{i1}x_1+w_1^{i2}x_2+b_0^i)+b_1.
\end{equation}
\tag{15}
$$
Сходным образом для умножения:
$$
\begin{equation}
a\cdot b=\sum_{i,j}^\infty\theta(\theta(a-i)+\theta(b-j)-2).
\end{equation}
\tag{16}
$$
Вклад дают только точки $(i,j)$, для которых получается, что аргумент внешней тета-функции неотрицательный, т. е. когда и $\theta(a-i)$, и $\theta(b-j)$ равны единице. Несложно убедиться, что таких точек в точности $a\cdot b$. Конечно, эти правила можно легко расширить на рациональные числа, по крайней мере с ограниченным знаменателем. Это и неудивительно – настоящая граница в теории чисел пролегает между рациональными числами и всеми прочими видами чисел, например алгебраическими или вещественными. Постановка задачи для умножения выглядит более интересной. Ее возможное упрощение может состоять в том, чтобы работать в двоичной системе и разработать основанный на функциях Хевисайда метод умножения для (последовательностей) нулей и единиц. 3.4. Применение в задачах классификации Стандартной задачей МО является задача о классификации: построении такой функции на конфигурационном пространстве $X$, которая принимает значения в дискретном наборе $Z$ классов. 3.4.1. Пример: одномерный случай Рассмотрим пример, где $X=\mathbb R^1$ и $Z=\{0,1\}$, т. е. мы классифицируем точки вещественной прямой как принадлежащие одному из двух классов. Пусть отображение, которое мы хотим приблизить своей нейронной сетью, имеет вид
$$
\begin{equation}
g\colon X\to\begin{cases} 0, &x<2, \\ 1, &2\leqslant x\leqslant 3, \\ 0, &x>3, \end{cases}
\end{equation}
\tag{17}
$$
т. е. точки отрезка $[2,3]$ принадлежат к классу $1$, а остальные – к классу $0$. Рассмотрим одноуровневую сеть. Ее значение имеет общий вид
$$
\begin{equation}
G=\sum_iw_1^i\sigma(w_0^ix+b_0^i)+b_1.
\end{equation}
\tag{18}
$$
Если мы возьмем в качестве $\sigma$ функцию Хевисайда, то сможем выразить хорошо известный ответ в следующем виде:
$$
\begin{equation}
\mathcal G(x)=\theta(x-2)-\theta(x-3)+0.
\end{equation}
\tag{19}
$$
Это означает, что мы можем взять одноуровневую сеть с двумя нейронами, параметры которой сойдутся к значениям
$$
\begin{equation}
\begin{aligned} \, \bar w_0^1 &=\bar w_0^2=1,\qquad \bar b_0^1=-2,\qquad \bar b_0^2=-3, \\ \bar w_1^1 &=-\bar w_1^1=1. \end{aligned}
\end{equation}
\tag{20}
$$
Нетрудно видеть, что так можно выразить любую ступенчатую функцию на прямой, что решает задачу о классификации для одномерного конфигурационного пространства $X$. 3.4.2. Пример: двумерный случай Для простоты рассмотрим сектор на плоскости $X=\mathbb R^2$. Это означает, что отображение, которое мы хотим приблизить своей нейронной сетью, имеет вид
$$
\begin{equation}
g\colon(x^1,x^2)\mapsto\begin{cases} 1, &x^1,x^2>0, \\ 0 &\text{в противном случае}, \end{cases}
\end{equation}
\tag{21}
$$
что является характеристической функцией для сектора. Решение дается двухуровневой сетью. Общая форма такой сети имеет вид
$$
\begin{equation}
G=\sum_jw_2^j\sigma\biggl(\sum_iw_1^{ji}\sigma(w_0^{i1}x_1+w_0^{i2}x^2+b_0^i)+b_1^j\biggr)+b_2.
\end{equation}
\tag{22}
$$
При $\sigma=\theta$ следующее выражение точно описывает наш сектор:
$$
\begin{equation}
\mathcal G(x_1,x_2)=-\theta(\theta(-x_1)+\theta(-x_2)-1)+1.
\end{equation}
\tag{23}
$$
Когда $x_1$, $x_2$ положительны, аргумент внешней тета-функции равен $-1$, а $y=1$. Когда же $x_1$ или $x_2$ отрицателен, то этот аргумент равен нулю или единице, и в результате $y=0$. Таким образом, подходящая сеть двухуровневая, с $2+1$ нейронами, значения параметров которых сходятся к
$$
\begin{equation}
\begin{aligned} \, \bar w_0^{11}&=\bar w_0^{22}=-1, \\ \bar w_1^{11}&=\bar w_1^{12}=1, \\ \bar w_2^1&=-1,\qquad \bar b_2=1. \end{aligned}
\end{equation}
\tag{24}
$$
Комбинация характеристических функций секторов может приблизить (с точностью, зависящей от числа нейронов сети) любую ступенчатую функцию на плоскости. Обобщение на случай старших размерностей выглядит прямолинейным: чтобы описать сектор в $D$ измерениях, нужно рассмотреть сеть с $D$ уровнями. 3.5. За пределами классификации Итак, мы научились находить корень произвольной функции $F(x)$, и оказалось, что метод ничем не отличается от стандартного подхода МО к задачам классификации. Но достаточна ли сила этого метода, чтобы получить больше явных формул, например
$$
\begin{equation*}
x=\frac{-b\pm\sqrt{b^2-4ac}}{2}
\end{equation*}
\notag
$$
для решения квадратного уравнения $F(x)=ax^2+bx+c$? В настоящее время сложно ответить на этот вопрос твердо и утвердительно, для этого требуется провести дополнительные исследования.
4. Выводы Все приведенные выше примеры являются вариациями архетипического научного вопроса: как решить уравнение $F(x)=0$. Как мы только что убедились, он может быть разрешен с помощью МО. Более того, мы обозначили причину этого: существование формулы (8) для функции $\mathcal G(x)$, которая составлена из функций Хевисайда $\theta(F(x))$. Таким образом, мы должны задать себе вопрос: могут ли все известные ответы на все научные вопросы, которые нам известны в настоящее время, быть выражены как линейные комбинации многократных применений функции Хевисайда? Если ответ на этот вопрос положительный, то можно надеяться подобрать коэффициенты этих линейных комбинаций с помощью МО так, что ответ станет правильным. Если же ответ отрицательный, то результат, полученный при помощи МО, не может быть правильным. Если мы используем сходящийся алгоритм МО, то некоторый ответ будет получен – программа выдаст определенные значения параметров. Возможно, он даже будет идеально подходить под обучающие данные, тем не менее он не будет иметь ничего общего с истинным ответом. В частности, он не может быть устойчив по отношению к изменению обучающей выборки: подобранные коэффициенты будут сильно меняться, даже если обучающая выборка будет меняться не сильно. Мы можем подойти к этой проблеме с двух противоположных сторон: 1) заранее найти представление для ответа задачи через функции Хевисайда или доказать, что для любого конечного числа уровней оно не существует; 2) проверить устойчивость вывода МО при изменении обучающей выборки. Первый подход – удел теоретиков. В частности, он не так прост, что, как мы надеемся, продемонстрировано на примерах выше. Второй подход годится для чисто компьютерных приложений, по крайней мере если мы ограничимся достаточно низким максимальным числом уровней сети. Возникают следующие вопросы: 1. Можем ли мы выразить решение любой научной проблемы в форме композиции функций Хевисайда? 2. Если ответ на этот вопрос положительный, то есть ли универсальный способ преобразовать любой уже известный ответ к такому виду? 3. Если ответ на этот вопрос отрицательный, то каковы препятствия к такой “хевисайдизации”? Эти вопросы напоминают те, которые привели к возникновению конструктивной математики, только сейчас налагаемые ограничения, похоже, гораздо более строгие. Немедленная интуиция для многих состоит в том, что для большинства научных проблем эксперименты во втором подходе продемонстрируют, что метод МО не работает. Тем не менее, как мы продемонстрировали на простейших примерах сложения и умножения, а также нахождения нулей функции, – в ряде случаев ответ может быть получен этим методом, как это ни удивительно. Более того, получилось, что в простейшем случае нахождения нуля функции ответ даже был не единственным, и это является вершиной целого айсберга новых возможных тонкостей, которые предстоит подробно изучить. Еще одна возможная задача – посмотреть на явные формулы для алгебраических чисел, т. е. решений полиномиальных уравнений, причем и в случаях, когда явные формулы известны, и в случаях, когда существуют только когомологические конструкции в духе нелинейной алгебры [9], [10]. Мы надеемся, что это короткое эссе сможет стимулировать научный поиск в обоих подходах и тем самым помочь понять пределы МО и участь человеческого разума во времена искусственного интеллекта. Сводится ли наука к методу наискорейшего спуска?
5. Рассуждения и заключение МО [11] в настоящее время пронизывает все аспекты нашей повседневной жизни и обещает дать человечеству новый магический инструмент для решения всех проблем, с которыми оно бы только могло столкнуться. Рост производительности компьютерных систем, похоже, ничем принципиально не ограничен, и однажды возможности компьютера могут превзойти возможности человеческого разума, который мы не можем улучшить никаким образом без того, чтобы не вмешаться в саму основу биологических процессов и тем самым разменять человеческое на нечто другое – возможно, биологическое, а возможно, и нет. Такой прогресс искусственного интеллекта еще раз ставит вопрос о том, что же такое наш интеллект и каковы его, если они вообще есть, преимущества по сравнению с искусственным. Это один из извечных вопросов, и сегодня мы можем его поставить более остро, потому что все впечатляющие успехи современного МО основаны на применении всего лишь метода наискорейшего спуска, который намного проще более изощренных творений человеческого ума, таких как физические теории и мечты о “теории всего” [12]–[15], которые в настоящее время уже выглядят “довольно простыми” и тем не менее гораздо более замысловатыми, чем то, что предлагает нам МО. Возможно ли такое, что наиболее простой метод оптимизации уже позволяет нам выучить и познать все, чего человеческий гений достиг за несколько веков? Ответ на этот вопрос кажется очевидным, по крайней мере нам. И это – твердое “нет”. Искусственный интеллект в том виде, в котором мы его сейчас знаем, чрезвычайно эффективен для решения задач оптимизации, т. е. для подстройки параметров в уже известных закономерностях, но он абсолютно бесполезен в деле нахождения правильных алгоритмов, т. е. в понимании законов, управляющих тем или иным явлением. Иными словами, если мы не имеем представления о форме выражения, в которой предстоит подбирать параметры, эффективность такого подбора чрезвычайно низка. Мы не можем создать при помощи этого инструмента нового знания, а можем только улучшить качество уже существующего. И законы природы в том виде, в котором они нам известны, не выражаются через функции Хевисайда. Кажется, что эта идея достаточно очевидна, и тем не менее появляются все новые и новые статьи, в которых МО “применяется” к науке (см., например, [16]–[20]), так что может сложиться впечатление, что научные проблемы и в самом деле можно разрешить с помощью МО. Это короткое эссе ставит своей целью объяснить, почему и в каком смысле это впечатление, возможно, неверно.
6. Оговорка/дисклеймер Предупреждая возможное недопонимание, оговоримся, что проблемы, поднятые в настоящей статье, относятся к конкретному методу в рамках МО. Его не следует смешивать с другими направлениями анализа больших данных, включая мощный индуктивный метод, основанный на анализе при помощи компьютера различных явлений, который мы продвигаем и используем в течение многих лет [10], [21]–[29]3[x]3На самом деле некоторые из работ [16]–[20] также используют именно этот подход, а не “настоящее” МО. и который становится все более и более значимым по мере увеличения возможностей компьютеров. Между тем использование компьютеров для усиления человеческого интеллекта – это не то же самое, что их использование для замещения интеллекта. Вопрос, поставленный в настоящей заметке, – это вопрос о том, является ли и замещение интеллекта возможным и что мы можем предпринять, чтобы установить, предоставляет ли МО нам такую возможность в самом деле. Благодарности Мы признательны А. Анохиной и С. Барсегяну за полезные обсуждения. Конфликт интересов Авторы заявляют, что у них нет конфликта интересов.
|
|
|
Список литературы
|
|
|
1. |
D. Guest, K. Cranmer, D. Whiteson, “Deep learning and its application to lhc physics”, Ann. Rev. Nucl. Part. Sci., 68 (2018), 161–181 |
2. |
J. Craven, M. Hughes, V. Jejjala, A. Kar, Illuminating new and known relations between knot invariants, arXiv: 2211.01404 |
3. |
J. Craven, M. Hughes, V. Jejjala, A. Kar, Learning knot invariants across dimensions, arXiv: 2112.00016 |
4. |
E. Lanina, A. Morozov, “Defect and degree of the Alexander polynomial”, Eur. Phys. J. C, 82:11 (2022), 1022, 16 pp. |
5. |
E. Lanina, A. Sleptsov, N. Tselousov, “Implications for colored HOMFLY polynomials from explicit formulas for group-theoretical structure”, Nucl. Phys. B, 974 (2022), 115644, 30 pp. |
6. |
V. Mishnyakov, A. Sleptsov, N. Tselousov, “A novel symmetry of colored HOMFLY Polynomials Coming from $\mathfrak{sl}(N|M)$ Superalgebras”, Comm. Math. Phys., 384:2 (2021), 955–969 |
7. |
S. Chen, O. Savchuk, S. Zheng, B. Chen, H. Stoecker, L. Wang, K. Zhou, Fourier-flow model generating Feynman paths, arXiv: 2211.03470 |
8. |
K. Hornik, M. Stinchcombe, H. White, “Multilayer feedforward networks are universal approximators”, Neural Networks, 2:5 (1989), 359–366 |
9. |
I. M. Gel'fand, M. M. Kapranov, A. V. Zelevinsky, Discriminants, Resultants, and Multidimensional Determinants, Birkhäuser, Boston, MA, 1994 |
10. |
V. Dolotin, A. Morozov, Introduction to Non-Linear Algebra, World Sci., Sungapore, 2007, arXiv: hep-th/0609022 |
11. |
Y. LeCun, Y. Bengio, G. Hinton, “Deep learning”, Nature, 521:7553 (2015), 436–444 |
12. |
A. Grothendieck, “Sketch of a programme”, Geometric Galois Actions. I. Around Grothendieck's Esquisse d'un Programme, Proceedings of the Conference on Geometry and Arithmetic of Moduli Spaces (Luminy, France, August, 1995), London Mathematical Society Lecture Note Series, 242, eds. L. Schneps, P. Lochak, Cambridge Univ. Press, Cambridge, 1997, 243–283 |
13. |
R. P. Langlands, “Problems in the theory of automorphic forms to Salomon Bochner in gratitude. Modern Harmonic Analysis and Applications”, Lectures in Modern Analysis and Applications III, Lecture Notes in Mathematics, 170, ed. T. C. Taam, Springer, Berlin, Heidelberg, 2006, 18–61 |
14. |
M. B. Green, J. H. Schwarz, E. Witten, Superstring Theory, v. 1–3, Cambridge Univ. Press, Cambridge, 2012 |
15. |
А. Ю. Морозов, “Теория струн – что это такое?”, УФН, 162:8 (1992), 83–175 |
16. |
G. Carleo, I. Cirac, K. Cranmer, L. Daudet, M. Schuld, N. Tishby, L. Vogt-Maranto, L. Zdeborova, “Machine learning and the physical sciences”, Rev. Modern Phys., 91:4 (2019), 045002, 39 pp., arXiv: 1903.10563 |
17. |
H. Erbin, R. Finotello, “Machine learning for complete intersection Calabi–Yau manifolds: a methodological study”, Phys. Rev. D, 103:12 (2021), 126014, 40 pp., arXiv: 2007.15706 |
18. |
H. Chen, Y. He, S. Lal, S. Majumder, “Machine learning Lie structures & applications to physics”, Phys. Lett. B, 817 (2021), 136297, 5 pp., arXiv: 2011.00871 |
19. |
Y.-H. He, K.-H. Lee, T. Oliver, A. Pozdnyakov, Murmurations of elliptic curves, arXiv: 2204.10140 |
20. |
J. Bao, Y.-H. He, E. Heyes, E. Hirst, Machine learning algebraic geometry for physics, arXiv: 2204.10334 |
21. |
A. Levin, A. Morozov, “On the foundations of the random lattices approach to quantum gravity”, Phys. Lett. B, 243:3 (1990), 207–214 |
22. |
V. Dolotin, A. Morozov, Algebraic geometry of discrete dynamics. The case of one variable, arXiv: hep-th/0501235; “Introduction to Khovanov homologies. III. A new and simple tensor-algebra construction of Khovanov–Rozansky invariants”, Nucl. Phys. B, 878 (2014), 12–81, arXiv: 1308.5759 |
23. |
А. Ю. Морозов, Ш. Р. Шакиров, “Новые и старые результаты в теории результантов”, ТМФ, 163:2 (2010), 222–257, arXiv: 0911.5278 |
24. |
A. Mironov, A. Morozov, Sh. Shakirov, A. Sleptsov, “Interplay between MacDonald and Hall–Littlewood expansions of extended torus superpolynomials”, JHEP, 05 (2012), 070, 11 pp., arXiv: 1201.3339 |
25. |
http://wwwth.itep.ru/knotebook/ and references therein |
26. |
A. Mironov, A. Morozov, An. Morozov, A. Sleptsov, “Gaussian distribution of LMOV numbers”, Nucl. Phys. B, 924 (2017), 1–32, arXiv: 1706.00761 |
27. |
A. Anokhina, A. Morozov, A. Popolitov, “Nimble evolution for pretzel Khovanov polynomials”, Eur. Phys. J. C, 79 (2019), 867, 18 pp., arXiv: 1904.10277 ; “Khovanov polynomials for satellites and asymptotic adjoint polynomials”, Internat. J. Modern Phys. A, 36:34–35 (2021), 2150243, 24 pp., arXiv: 2104.14491 |
28. |
A. Anokhina, Talk at StringMath-2019 https://www.stringmath2019.se/wp-content/uploads/sites/39/2019/07/Gong_Show_StringMath2019.pdf |
29. |
A. Mironov, A. Morozov, “Superintegrability summary”, Phys. Lett. B, 835 (2022), 137573, 10 pp., arXiv: 2201.12917 |
Образец цитирования:
В. В. Долотин, А. Ю. Морозов, А. В. Пополитов, “Машинное обучение в хорошо известных сюжетах”, ТМФ, 214:3 (2023), 517–528; Theoret. and Math. Phys., 214:3 (2023), 446–455
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tmf10418https://doi.org/10.4213/tmf10418 https://www.mathnet.ru/rus/tmf/v214/i3/p517
|
Статистика просмотров: |
Страница аннотации: | 289 | PDF полного текста: | 55 | HTML русской версии: | 184 | Список литературы: | 44 | Первая страница: | 22 |
|