|
О порождении синтетических признаков на основе опорных цепей и произвольных метрик в рамках топологического подхода к анализу данных. Часть 2. Экспериментальная апробация на задачах фармакоинформатики
И. Ю. Торшин Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Аннотация:
Рассмотрение прецедентных отношений между признаками и таргетной переменной в виде наборов элементов булевой решетки указывает на возможность порождения синтетических признаков с использованием метрических функций расстояния. Сформулированы подходы к (1) оценке релевантности («информативности») метрик по отношению к решаемым задачам, (2) порождению и (3) отбору синтетических признаков, более информативных, чем исходные признаковые описания. Представленные результаты топологического анализа 2400 выборок данных «молекула–свойство» из ProteomicsDB позволили получить достаточно эффективные алгоритмы прогнозирования свойств молекул (ранговая корреляция в кросс-валидации — 90$\pm$0,23). На данной выборке задач установлены метрики, которые наиболее часто порождают информативные синтетические признаки: максимальное уклонение Колмогорова, «косое» расстояние, метрики Lp, Реньи, фон Мизеса. Для решения изученного комплекса задач показано преимущество полиномных корректоров по сравнению с нейросетевыми и с корректорами типа «случайный лес».
Ключевые слова:
топологический анализ данных, теория решеток, алгебраический подход Ю. И. Журавлёва, фармакоинформатика.
Поступила в редакцию: 09.04.2024
Образец цитирования:
И. Ю. Торшин, “О порождении синтетических признаков на основе опорных цепей и произвольных метрик в рамках топологического подхода к анализу данных. Часть 2. Экспериментальная апробация на задачах фармакоинформатики”, Информ. и её примен., 18:2 (2024), 47–53
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia899 https://www.mathnet.ru/rus/ia/v18/i2/p47
|
|