|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Интеллектуальный анализ данных
Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства
И. А. Борисова, О. А. Кутненко Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия
Аннотация:
В работе рассматривается задача цензурирования данных из области медицинской диагностики. Предполагается, что в анализируемой выборке могут встречаться ошибочно диагностированные объекты. Подобные объекты оказывают негативное влияние на процедуру анализа данных и поиск содержащихся в них закономерностей, что замедляет процесс получения результатов и ведет к их искажению. Предложенная процедура цензурирования позволяет отыскивать такие объекты и либо удалять их, либо исправлять ошибки в диагностическом (целевом) признаке. Исправление ошибок предпочтительнее в том случае, когда исходная выборка мала, так как это позволяет максимально сохранить полезную информацию, содержащуюся в выборке. Для решения поставленной задачи используется функция конкурентного сходства, с помощью которой оценивается локальное сходство объектов со своими ближайшими соседями. Будучи усредненными по всей выборке, величины локального сходства дают представление о том насколько сильно различаются классы объектов с разными диагнозами на основе имеющихся данных. При этом предполагается, что если в выборке присутствуют неверно диагностированные объекты, то их сходство с ближайшими аналогами из своего класса низкое, и их исключение или коррекция целевого признака позволит увеличить общую разделимость выборки. Процедура коррекции-фильтрации неверно диагностированных объектов основана на наблюдении за изменениями в оценке разделимости классов, вычисленной до и после внесения исправлений в выборку. Процесс цензурирования продолжается до достижения точки перегиба функции разделимости. Для тестирования предложенного метода использовался ряд модельных задач различной сложности. Кроме того этот метод применялся к задачам диагностики диабета, рака груди по результатам биопсии, болезни Паркинсона по нарушениям речи. Предложенный метод показал высокую чувствительность по отношению к ошибочно диагностированным объектам, а исправление таких ошибок позволило улучшить качество классификации при незначительном сокращении объема обучающей выборки.
Ключевые слова:
распознавание образов, функция конкурентного сходства, компактность образов, разделимость классов, цензурирование объектов.
Материал поступил в редакцию 31.01.2018, опубликован 27.03.2018
Образец цитирования:
И. А. Борисова, О. А. Кутненко, “Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства”, Матем. биология и биоинформ., 13:1 (2018), 38–49
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mbb326 https://www.mathnet.ru/rus/mbb/v13/i1/p38
|
|