А. А. Хуршудов, “Представление трехмерных объектов с помощью ансамбля трансформирующих автоассоциаторов”, Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление, 2015, № 2-3(217-222), 105

Аннотация: Одна из ключевых задач машинного обучения в области компьютерного зрения – получение качественных представлений визуальных данных, остающихся устойчивыми к изменениям угла обзора, позиции в сцене, эффектов освещения или текстуры изображенного объекта. Существующие современные модели сверточных сетей, такие как GoogLeNet или AlexNet успешно решают эту задачу в некоторых условиях, формируя инвариантные представления, достаточные для эффективной классификации множества объектов. Некоторые исследователи (Хинтон, Крижевский и др.), однако предполагают, что используемый этими моделями подход, несмотря на впечатляющие результаты в задачах классификации, является фундаментально ошибочным по отношению к тому, что должна представлять собой эффективная зрительная система: инвариантные представления не способны реагировать на изменения положения объекта в пространстве. Упомянутые авторы предполагают,что целью любой качественной модели зрительной системы должна быть не инвариантность, а эквивариантность – способность изменять представление объекта предсказуемым образом в ответ на наблюдаемые пространственные преобразования.
В данной статье использована предложенная Хинтоном архитектура подобной эквивариантной модели трансформирующего автоассоциатора, модифицированная таким образом, чтобы обнаруживать низкоуровневые композиционные признаки в изображениях трехмерных объектов. С применением SVM-классификатора и использованием свойств трансформирующего автоассоциатора продемонстрирована возможность представления сложных трехмерных форм в виде ансамбля ограниченного количества автоассоциаторов, каждый из которых соответствует локальному признаку объекта. Благодаря способности трансформирующего автоассоциатора определять не только присутствие выученного признака, но и его пространственные параметры, становится также возможным соотносить вместе изображения одних и тех же объектов в условиях, существенно различных на уровне пикселей.