Аннотация:
Один из самых популярных сюжетов на стыке анализа данных и оптимизации в последнее время - это как обучать глубокие нейронные сети. Математически задача сводится к задаче стохастической оптимизации, которая, в свою очередь, с помощью метода Монте Карло сводится к задаче минимизации суммы большого числа функций. Важно отметить, что похожий сюжет присущ в целом почти всем задачам, приходящим из анализа данных. Почти все задачи анализа данных (машинного обучения) сводятся к задачам оптимизации, а точнее стохастической оптимизации. В математической статистике с известным вероятностным законом (но неизвестными параметрами), а в машинном обучении - с неизвестным вероятностным законом. Одним из наиболее популярных способов решения таких оптимизационных задач и их вариантов, полученных с помощью метода Монте-Карло, является метод стохастического градиентного спуска и его вариации. Методы был известен еще в 50-е годы прошлого века. Однако по-настоящему значимость этого метода была оценена в последние двадцать лет в связи с отмеченными приложениями. В данном докладе планируется сделать небольшой обзор развития указанного направления в последнее время (адаптивный выбор шага, размера батча, федеративное обучение и т.д.).