S. A. Komkov, M. D. Dzabraev, A. A. Petiushko, “Mutual modality learning for video action classification”, Компьютерная оптика, 47:4 (2023), 637

Компьютерная оптика

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Правила для авторов

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Компьютерная оптика:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Компьютерная оптика, 2023, том 47, выпуск 4, страницы 637–649
DOI: https://doi.org/10.18287/2412-6179-CO-1277 (Mi co1165)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ

Mutual modality learning for video action classification

S. A. Komkov^ab, M. D. Dzabraev^ab, A. A. Petiushko^ab

^a Lomonosov Moscow State University
^b Huawei Moscow Research Center, 121099, Russia, Moscow, Smolenskaya ploshchad 7–9

PDF полного текста (1098 kB) Список цитирования (1)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.18287/2412-6179-CO-1277

Аннотация: The construction of models for video action classification progresses rapidly. However, the performance of those models can still be easily improved by ensembling with the same models trained on different modalities (e.g. Optical flow). Unfortunately, it is computationally expensive to use several modalities during inference. Recent works examine the ways to integrate advantages of multi-modality into a single RGB-model. Yet, there is still room for improvement. In this paper, we explore various methods to embed the ensemble power into a single model. We show that proper initialization, as well as mutual modality learning, enhances single-modality models. As a result, we achieve state-of-the-art results in the Something-Something-v2 benchmark.

Ключевые слова: video recognition, video action classification, video labeling, mutual learning, optical flow

Поступила в редакцию: 13.01.2023
Принята в печать: 29.03.2023

Тип публикации: Статья

Язык публикации: английский

Образец цитирования: S. A. Komkov, M. D. Dzabraev, A. A. Petiushko, “Mutual modality learning for video action classification”, Компьютерная оптика, 47:4 (2023), 637–649

Цитирование в формате AMSBIB

\RBibitem{KomDzaPet23}

\by S.~A.~Komkov, M.~D.~Dzabraev, A.~A.~Petiushko

\paper Mutual modality learning for video action classification

\jour Компьютерная оптика

\yr 2023

\vol 47

\issue 4

\pages 637--649

\mathnet{http://mi.mathnet.ru/co1165}

\crossref{https://doi.org/10.18287/2412-6179-CO-1277}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/co1165

https://www.mathnet.ru/rus/co/v47/i4/p637

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	10
PDF полного текста:	3
Список литературы:	2

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы