|
|
Алгебро-геометрические методы в интегрируемых системах и квантовой физике
29 февраля 2024 г. 18:30–20:00, г. Долгопрудный, МФТИ, ауд. 113 РТ
|
|
|
|
|
|
Универсальные формулы и нейронные сети
Д. А. Яроцкийab a Математический институт им. В.А. Стеклова Российской академии наук, г. Москва
b Институт проблем передачи информации РАН
|
Количество просмотров: |
Эта страница: | 124 |
|
Аннотация:
Универсальные формулы - это параметризованные аналитические выражения фиксированной сложности, которые позволяют приблизить любую непрерывную функцию. Теорема Универсальной Аппроксимации гласит, что выражения типа однослойной нейронной сети могут приближать любую функцию, если неограниченно увеличивать число нейронов. Оказывается, однако, что при определенном выборе функций активаций и архитектуре сети можно обойтись фиксированным числом нейронов. При этом возникает два естественных вопроса: 1) какие именно структурные условия обеспечивают такую возможность и 2) можно ли выучивать параметры такой сети с помощью градиентного спуска. По вопросу 1, из теории пфаффовых функций можно усмотреть, что нейронная сеть должна содержать функцию sin с неограниченным аргументом, а из теории агебраически-трансцендентных функций и теоремы Ван-дер-Вардена можно усмотреть, что однослойные сети с классическими активациями удовлетворяют алгебраическим уравнениям и поэтому не могут быть конечно-универсальными. По вопросу 2, если размерность пространства целевых функций превосходит число параметров W, то градиентный спуск не позволяет выучить любые целевые функции; в частности из теоремы Борсука-Улама следует, что любое множество целей, гомеоморфное W-сфере, содержит невыучиваемые цели. С другой стороны, если на пространстве целей задана вероятностная мера, то можно построить модель, выучивающую канторово множество целей сколь угодно большой вероятности.
|
|