|
СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
MDS-ViTNet: улучшение предсказания карты внимания при слежении за взглядом с помощью модели визуального трансформера
И. Полежаевab, И. Гончаренкоbc, Н. Юринаc a Яндекс, Москва, Россия
b Московский физико-технический институт, Долгопрудный, Россия
c СБЕР, Москва, Россия
Аннотация:
В данной статье мы представляем новую методологию, которую мы называем MDS-ViTNet (Multi Decoder Saliency by Vision Transformer Network) для улучшения прогнозирования визуальной значимости или слежения за взглядом. Этот подход обладает значительным потенциалом для различных областей, включая маркетинг, медицину, робототехнику и розничную торговлю. Мы предлагаем архитектуру сети, которая использует Vision Transformer, выходя за рамки традиционной структуры ImageNet. Фреймворк принимает структуру кодировщика-декодера, при этом кодировщик использует Swin трансформер для эффективного встраивания наиболее важных особенностей. Этот процесс включает метод трансферного обучения, при котором слои Vision Transformer преобразуются кодировщиком Transformer и бесшовно интегрируются в декодер CNN. Эта методология обеспечивает минимальную потерю информации из исходного изображения. Декодер использует технику множественного декодирования, применяя два декодера для создания двух различных карт внимания. Затем эти карты объединяются в один выходной сигнал с помощью дополнительной модели CNN. Наша обученная модель MDS-ViTNet достигает передовых результатов в нескольких бенчмарках. Стремясь способствовать дальнейшему сотрудничеству, мы планируем сделать наш код, модели и наборы данных доступными для общественности.
Поступило: 27.09.2024 Принято к публикации: 02.10.2024
Образец цитирования:
И. Полежаев, И. Гончаренко, Н. Юрина, “MDS-ViTNet: улучшение предсказания карты внимания при слежении за взглядом с помощью модели визуального трансформера”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 260–266; Dokl. Math., 110:suppl. 2 (2024), S230–S235
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/danma605 https://www.mathnet.ru/rus/danma/v520/i2/p260
|
Статистика просмотров: |
Страница аннотации: | 7 |
|