|
Информационные и вычислительные технологии в биологии и медицине
Очистка данных от диагностических ошибок в признаковых пространствах большой размерности
И. А. Борисова, О. А. Кутненко Институт математики им. С.Л. Соболева Сибирского отделения Российской академии наук, Новосибирск, Россия
Аннотация:
В статье предлагается новый подход к цензурированию данных, позволяющий очищать выборки от диагностических ошибок в целевом признаке в случае, когда эти выборки описаны в признаковых пространствах большой размерности. Рассмотрение данного случая как отдельной задачи объясняется тем, что в пространствах большой размерности перестают работать большинство методов цензурирования и очистки данных, как статистических, так и метрических. При этом для задач медицинской диагностики, учитывая сложность изучаемых объектов и явлений, большое количество описывающих характеристик является скорее нормой, чем исключением. Для решения поставленной задачи предложен подход, ориентированный на локальное сходство между собой объектов выборки и использующий в качестве меры сходства функцию конкурентного сходства (FRiS-функцию). В предложенном подходе для эффективной очистки данных от ошибок происходит выбор наиболее информативного и релевантного решаемой задаче признакового подпространства малой размерности, в котором разделимость классов после их корректировки будет максимальна. Под разделимостью классов понимается похожесть объектов одного класса друг на друга и их непохожесть на объекты другого классов. Очистка от ошибок может выражаться как в их исправлении, так и в удалении испорченных объектов из выборки. Описанный метод был реализован в виде алгоритма FRiS-LCFS (FRiS Local Censoring with Feature Selection) и протестирован на модельных и реальных биомедицинских задачах, в том числе и на задаче диагностики рака простаты по результатам измерения генной активности. Разработанный алгоритм показал свою конкурентоспособность по сравнению со стандартными методами, фильтрации данных в пространствах большой размерности.
Ключевые слова:
распознавание образов, функция конкурентного сходства, компактность образов, разделимость классов, цензурирование объектов, выбор признаков.
Материал поступил в редакцию 04.07.2019, 04.10.2019, опубликован 07.10.2019
Образец цитирования:
И. А. Борисова, О. А. Кутненко, “Очистка данных от диагностических ошибок в признаковых пространствах большой размерности”, Матем. биология и биоинформ., 14:2 (2019), 464–476
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mbb396 https://www.mathnet.ru/rus/mbb/v14/i2/p464
|
Статистика просмотров: |
Страница аннотации: | 101 | PDF полного текста: | 129 | Список литературы: | 18 |
|