Аннотация:
В ряде современных биомедицинских исследований, направленных на поиск методов ранней диагностики онкологических заболеваний, используются микрочипы, содержащие определенную биологическую информацию о пациентах. На основе этих данных происходит отнесение пациентов к одному из двух классов, соответствующих наличию и отсутствию у пациента некоторого диагноза. При решении данной задачи отбор значимых признаков является одним из этапов, оказывающих решающее влияние на качество классификации. В данной работе предлагается критерий отбора значимых признаков, основанный на использовании ledge-коэффициента корреляции, введенного ранее для оценки степени взаимосвязи числового и бинарного признаков. Для двух наборов данных с микрочипов приведены сравнительные примеры их бинарной классификации с использованием трех алгоритмов отбора признаков, трех методов уменьшения размерности, шести моделей классификации. Использование ledge-критерия отбора признаков позволило получить качество классификации, сравнимое с результатами использования распространенных методов отбора признаков, таких как: t-критерий, U-критерий. Для рассмотренного в работе набора данных с пептидных микрочипов ранее была выявлена эффективность применения метода проекции на латентные структуры. Использование этого метода в сочетании с отбором значимых признаков ledge-критерием позволило получить более высокий показатель качества классификации.
Ключевые слова:
отбор признаков, ledge-коэффициент, бинарная классификация, микрочипы, ROC-кривая, метод проекции на латентные структуры.
Работа выполнена при финансовой поддержке РФФИ в рамках научного проекта № 17-04-00321.
Материал поступил в редакцию 18.07.2019, 15.01.2020, опубликован 30.01.2020
Тип публикации:
Статья
Образец цитирования:
И. Ю. Бойко, Д. С. Анисимов, Л. Л. Смолякова, М. А. Рязанов, “Подход к отбору значимых признаков при решении биомедицинских задач бинарной классификации данных с микрочипов”, Матем. биология и биоинформ., 15:1 (2020), 4–19
\RBibitem{BoiAniSmo20}
\by И.~Ю.~Бойко, Д.~С.~Анисимов, Л.~Л.~Смолякова, М.~А.~Рязанов
\paper Подход к отбору значимых признаков при решении биомедицинских задач бинарной классификации данных с микрочипов
\jour Матем. биология и биоинформ.
\yr 2020
\vol 15
\issue 1
\pages 4--19
\mathnet{http://mi.mathnet.ru/mbb419}
\crossref{https://doi.org/10.17537/2020.15.4}
А. А. Глазков, Д. А. Куликов, П. А. Глазкова, “Оценка диагностической информативности количественных признаков в биомедицинских исследованиях на основании описательных статистик и стандартизованной разности средних значений”, Матем. биология и биоинформ., 15:2 (2020), 416–428