Аннотация:
Во многих моделях изучаемая величина (отклик) $Y$ зависит от некоторого набора факторов $X=(X_1,\dots,X_n)$. Например, в медико-биологических исследованиях $Y$ может характеризовать состояние здоровья пациента, а компоненты $X$ могут представлять генетические и негенетические факторы. Одна из важнейших задач исследования случайного отклика $Y$ заключается в нахождении «значимого набора» $(X_{i_1},\dots,X_{i_r})$, $1\le i_1<\dots<i_r\le n$, от которого $Y$ зависит (в определенном смысле) существенным образом. Рассматривается целый ряд взаимодополняющих методов решения указанной задачи, вовлекающих вероятностно-статистическую технику, машинное обучение и компьютерное моделирование. Упомянем лишь некоторые из современных методов такие, как LASSO, SCAD, BOOST, GARROTE и их модификации.
Основное внимание будет уделено MDR (multifactor dimensionality reduction) методу, введенному M. Ritchie et al. в 2001 году и получившему дальнейшее развитие и применение в последующих более чем 200 публикациях. Доклад основан на цикле из 7 недавних работ автора, опубликованных в Докладах РАН (2014), Journal of Multivariate Analysis (2015), Lecture Notes in Mathematics (2015) и др. Подчеркнем, что предложен новый подход к идентификации значимых переменных, основанный на построении статистических оценок функционала ошибки прогноза отклика, которые используют штрафную функцию, а также процедуру кросс-валидации. При этом удается рассмотреть и небинарный отклик. Введены регуляризованные оценки упомянутого функционала, и для них доказана центральная предельная теорема. При этом самостоятельный интерес представляют новые результаты, относящиеся к асимптотической нормальности массивов перестановочных случайных величин. Представлены также некоторые результаты компьютерного моделирования, демонстрирующие эффективность развиваемого подхода.