Аннотация:
Доклад продолжает начатую в прошлом докладе от 13 марта тему сверхвыразительных моделей. В прошлый раз было показано, что существуют параметризованные элементарные функции в виде нейронных сетей фиксированного размера, которые могут равномерно приблизить любую непрерывную функцию. При этом возникает два естественных вопроса: 1) какие именно структурные условия обеспечивают такую возможность и 2) можно ли выучивать параметры такой сети с помощью градиентного спуска. По вопросу 1, из теории пфаффовых функций можно усмотреть, что нейронная сеть должна содержать функцию sin с неограниченным аргументом, а из теории алгебраически-трансцендентных функций и теоремы Ван-дер-Вардена можно усмотреть, что однослойные сети с классическими активациями удовлетворяют алгебраическим уравнениям и поэтому не могут быть конечно-универсальными. По вопросу 2, если размерность пространства целевых функций превосходит число параметров W, то градиентный спуск не позволяет выучить любые целевые функции; в частности из теоремы Борсука-Улама следует, что любое множество целей, гомеоморфное W-сфере, содержит невыучиваемые цели. С другой стороны, если на пространстве целей задана вероятностная мера, то можно построить модель, выучивающую канторово множество целей сколь угодно большой вероятности.