|
Об оценках интегрального риска предиктора липшицевых функций в моделях машинного обучения
Ю. С. Чайников, В. А. Судаков
Аннотация:
Несбалансированность классов в доступных обучающих выборках при решении задач машинного обучения в большинстве практических случаев затрудняет тренировку предикторов, эффективно обобщающих закономерности обучающего датасета на генеральную совокупность. В работе исследованы теоретические основания эффективности добавления в обучающую выборку синтетических данных. В оценке общего риска выделено два типа ошибок: ошибка репрезентации и ошибка уклонения. Сформулированы практические рекомендации по созданию синтетических выборок, уклоняющихся в своем распределении от репрезентативных по плотности распределения аргумента, с более частыми сэмплами в тех областях, где плотность распределения аргумента имеет относительно малые значения, что ведет к уменьшению размера соответствующих ячеек Вороного и уменьшению вклада ошибки уклонения в общий риск.
Ключевые слова:
синтетические данные, машинное обучение, ячейки
Вороного, предиктор, обучающая выборка, общий риск, эмпирический риск,
ошибка репрезентации, ошибка уклонения.
Образец цитирования:
Ю. С. Чайников, В. А. Судаков, “Об оценках интегрального риска предиктора липшицевых функций в моделях машинного обучения”, Препринты ИПМ им. М. В. Келдыша, 2024, 053, 12 с.
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ipmp3263 https://www.mathnet.ru/rus/ipmp/y2024/p53
|
Статистика просмотров: |
Страница аннотации: | 24 | PDF полного текста: | 13 | Список литературы: | 10 |
|