Информационные технологии и вычислительные системы
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



ИТиВС:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информационные технологии и вычислительные системы, 2022, выпуск 3, страницы 35–42
DOI: https://doi.org/10.14357/20718632220304
(Mi itvs774)
 

ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ

Automatic training data filtering for errors removing and improving the quality of the final neural network

N. Z. Valishinaab, S. A. Ilyuhinbc, A. V. Sheshkusbcd, V. L. Arlazarov

a Lomonosov Moscow State University, Prosp. 60-letiya Oktyabrya, 9, Moscow, 117312, Russia
b Smart Engines Service LLC
c Moscow Institute of Physics and Technology (State University), Prosp. 60-letiya Oktyabrya, 9, Moscow, 117312, Russia
d Federal Research Center "Computer Science and Control" of RAS, Prosp. 60-letiya Oktyabrya, 9, Moscow, 117312, Russia
Аннотация: Real-world data are often dirty. In most cases it negatively affects the accuracy of the model trained on such data. Supervised data correction is an expensive and time-consuming procedure. So one of the possible ways to solve this problem is to automate the cleaning process. In this paper, we consider such a preprocessing technique for improving the quality of the trained network as automatic cleaning of training data. The proposed iterative method is based on the assumption that the polluted data are most likely located farther away from the median of the class. It includes detection and subsequent removal of the noisy data from a training set. Experiments on a generated synthetic dataset demonstrated that this method gives good results and allows to clean up the data even at high levels of pollution and significantly improve the quality of the classifier.
Ключевые слова: data cleaning, outlier(s) detection, mislabels, classifier, siamese neural network.
Реферативные базы данных:
Тип публикации: Статья
Язык публикации: английский
Образец цитирования: N. Z. Valishina, S. A. Ilyuhin, A. V. Sheshkus, V. L. Arlazarov, “Automatic training data filtering for errors removing and improving the quality of the final neural network”, ИТиВС, 2022, no. 3, 35–42
Цитирование в формате AMSBIB
\RBibitem{ValIlyShe22}
\by N.~Z.~Valishina, S.~A.~Ilyuhin, A.~V.~Sheshkus, V.~L.~Arlazarov
\paper Automatic training data filtering for errors removing and improving the quality of the final neural network
\jour ИТиВС
\yr 2022
\issue 3
\pages 35--42
\mathnet{http://mi.mathnet.ru/itvs774}
\crossref{https://doi.org/10.14357/20718632220304}
\elib{https://elibrary.ru/item.asp?id=49501757}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/itvs774
  • https://www.mathnet.ru/rus/itvs/y2022/i3/p35
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информационные технологии и вычислительные системы
    Статистика просмотров:
    Страница аннотации:47
    PDF полного текста:19
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024