|
Эта публикация цитируется в 6 научных статьях (всего в 6 статьях)
О методах повышения точности многоклассовой классификации на несбалансированных данных
Л. А. Севастьяновa, Е. Ю. Щетининb a Российский университет дружбы народов
b Финансовый университет при Правительстве РФ
Аннотация:
Проведены исследования методов преодоления разбалансированности классов в данных с целью повышения качества классификации с точностью, более высокой, чем при непосредственном использовании алгоритмов классификации к несбалансированным данным. Для повышения точности классификации в работе предложена схема, состоящая в использовании комбинации алгоритмов классификации и методов отбора признаков RFE (Recursive Feature Elimination), Random Forest и Boruta с предварительным использованием балансирования классов методами случайного семплирования, SMOTE (Synthetic Minority Oversamplimg TEchnique) и ADASYN (ADAptive SYNthetic sampling). На примере данных о заболеваниях кожи проведены компьютерные эксперименты, показавшие, что применение алгоритмов семплирования для устранения дисбаланса классов, а также отбора наиболее информативных признаков значительно повышает точность результатов классификации. Наиболее эффективным по точности классификации оказался алгоритм случайного леса при семплировании данных с использованием алгоритма ADASYN.
Ключевые слова:
классификация, несбалансированные данные, семплирование, случайный лес, ADASYN, SMOTE.
Поступила в редакцию: 29.11.2019
Образец цитирования:
Л. А. Севастьянов, Е. Ю. Щетинин, “О методах повышения точности многоклассовой классификации на несбалансированных данных”, Информ. и её примен., 14:1 (2020), 63–70
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia646 https://www.mathnet.ru/rus/ia/v14/i1/p63
|
Статистика просмотров: |
Страница аннотации: | 513 | PDF полного текста: | 707 | Список литературы: | 39 |
|