Loading [MathJax]/jax/output/SVG/config.js
Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2024, том 520, номер 2, страницы 260–266
DOI: https://doi.org/10.31857/S2686954324700620
(Mi danma605)
 

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

MDS-ViTNet: улучшение предсказания карты внимания при слежении за взглядом с помощью модели визуального трансформера

И. Полежаевab, И. Гончаренкоbc, Н. Юринаc

a Яндекс, Москва, Россия
b Московский физико-технический институт, Долгопрудный, Россия
c СБЕР, Москва, Россия
Аннотация: В данной статье мы представляем новую методологию, которую мы называем MDS-ViTNet (Multi Decoder Saliency by Vision Transformer Network) для улучшения прогнозирования визуальной значимости или слежения за взглядом. Этот подход обладает значительным потенциалом для различных областей, включая маркетинг, медицину, робототехнику и розничную торговлю. Мы предлагаем архитектуру сети, которая использует Vision Transformer, выходя за рамки традиционной структуры ImageNet. Фреймворк принимает структуру кодировщика-декодера, при этом кодировщик использует Swin трансформер для эффективного встраивания наиболее важных особенностей. Этот процесс включает метод трансферного обучения, при котором слои Vision Transformer преобразуются кодировщиком Transformer и бесшовно интегрируются в декодер CNN. Эта методология обеспечивает минимальную потерю информации из исходного изображения. Декодер использует технику множественного декодирования, применяя два декодера для создания двух различных карт внимания. Затем эти карты объединяются в один выходной сигнал с помощью дополнительной модели CNN. Наша обученная модель MDS-ViTNet достигает передовых результатов в нескольких бенчмарках. Стремясь способствовать дальнейшему сотрудничеству, мы планируем сделать наш код, модели и наборы данных доступными для общественности.
Поступило: 27.09.2024
Принято к публикации: 02.10.2024
Англоязычная версия:
Doklady Mathematics, 2024, Volume 110, Issue suppl. 2, Pages S230–S235
DOI: https://doi.org/10.1134/S1064562424602117
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.8
Образец цитирования: И. Полежаев, И. Гончаренко, Н. Юрина, “MDS-ViTNet: улучшение предсказания карты внимания при слежении за взглядом с помощью модели визуального трансформера”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 260–266; Dokl. Math., 110:suppl. 2 (2024), S230–S235
Цитирование в формате AMSBIB
\RBibitem{PolGonYur24}
\by И.~Полежаев, И.~Гончаренко, Н.~Юрина
\paper MDS-ViTNet: улучшение предсказания карты внимания при слежении за взглядом с помощью модели визуального трансформера
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2024
\vol 520
\issue 2
\pages 260--266
\mathnet{http://mi.mathnet.ru/danma605}
\crossref{https://doi.org/10.31857/S2686954324700620}
\elib{https://elibrary.ru/item.asp?id=80287453}
\transl
\jour Dokl. Math.
\yr 2024
\vol 110
\issue suppl. 2
\pages S230--S235
\crossref{https://doi.org/10.1134/S1064562424602117}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma605
  • https://www.mathnet.ru/rus/danma/v520/i2/p260
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:7
     
      Обратная связь:
    math-net2025_03@mi-ras.ru
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025