Аннотация:
Зачастую в задачах индустриальной инженерии имеется несколько источников данных разной точности. Например, эксперименты в аэродинамической трубе обеспечивают высокую точность моделирования (источник данных высокой точности), но при этом они затратны как по стоимости, так и по времени. В свою очередь, эксперименты на основе вычислительных физических моделей имеют более высокую погрешность (источник данных низкой точности), но при этом эти эксперименты вообще говоря менее затратны как по стоимости, так и по времени.
Задача построения регрессии по данным разной точности состоит в том, чтобы научиться прогнозировать значения источника данных высокой точности для новых условий эксперимента. При этом есть ограничение сверху на бюджет вычислений, то есть из-за высокой стоимости высокоточных данных мы можем пополнить обучающую выборку только небольшим количеством высокоточных данных. Однако, в некоторых приложениях оказывается, что значительно более точную регрессионную модель удается построить, если использовать также и низкоточные данные. На этом пути возникает задача планирования эксперимента, в частности, необходимо ответить на вопрос о том, как выбирать соотношение между размерами выборок низкоточных и высокоточных данных.
В докладе будет рассмотрена гауссовская модель регрессии на основе данных разной точности. Для этой модели удалось подсчитать минимаксную ошибку интерполяции в случае, если исходные гаусовские процессы достаточно гладкие. На основе этих результатов,
- была получена оценка того, какое улучшение в точности интерполяции потенциально можно получить в зависимости от корреляции между источниками данных разной точности, если использовать при построении регрессии и низкоточные данные;
- был построен алгоритм планирования эксперимента, который позволяет оптимально выбирать соотношение между размерами выборок низкоточных и высокоточных данных для заданного бюджета вычислений. Результаты применения алгоритма к искусственным данным и данным из реальных задач показывают его высокую эффективность.
Доклад делается по мотивам статей:
- https://arxiv.org/abs/1610.06731
- https://www.researchgate.net/publication/287375928_Surrogate_modeling_of_multifidelity_data_for_large_samples
- https://www.researchgate.net/publication/304158862_Regression_on_the_Basis_of_Nonstationary_Gaussian_Processes_with_Bayesian_Regularization
- https://arxiv.org/abs/1609.01088