|
Несбалансированность классов в технологии поддержки конкретно-исторических исследований
И. М. Адамович, О. И. Волков Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Аннотация:
Статья продолжает серию работ, посвященных технологии поддержки конкретно-исторических исследований (ПКИИ), построенной на принципах сотворчества и краудсорсинга и ориентированной на широкий круг не относящихся к профессиональным историкам и биографам пользователей. Статья посвящена дальнейшему развитию темы подготовки данных для применяемых в технологии алгоритмов машинного обучения. Показана особая важность бинарной классификации для конкретно-исторического исследования. Описана проблема дисбаланса классов при проведении бинарной классификации с помощью алгоритмов машинного обучения и ее последствия. Показано, что конкретно-исторические данные могут быть сильно несбалансированными. Приведен обзор подходов к решению задачи устранения дисбаланса классов. Проведен анализ специфики конкретно-исторических данных, на его основе выбран подход oversampling как наиболее подходящий для технологии. Описаны алгоритмы, реализующие данный подход, оценены их достоинства и недостатки. Выбран алгоритм ADASYN как наиболее перспективный для использования в условиях технологии. Оценены возможности уже включенных в технологию средств борьбы с шумами в данных и выбросами для компенсации такого недостатка алгоритма ADASYN, как чувствительность к выбросам.
Ключевые слова:
конкретно-историческое исследование, распределенная технология, машинное обучение, дисбаланс классов, алгоритм ADASYN.
Поступила в редакцию: 20.07.2023
Образец цитирования:
И. М. Адамович, О. И. Волков, “Несбалансированность классов в технологии поддержки конкретно-исторических исследований”, Системы и средства информ., 33:4 (2023), 149–159
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ssi919 https://www.mathnet.ru/rus/ssi/v33/i4/p149
|
Статистика просмотров: |
Страница аннотации: | 44 | PDF полного текста: | 26 | Список литературы: | 16 |
|