Аннотация:
Как построить промышленную систему машинного обучения, которую можно было бы эффективно дообучать, избегая рисков и технических затрат, характерных для онлайн-методов машинного обучения? Эффективное решение достигается за счет сочетания самых современных и давно известных алгоритмов. Лучшие результаты на стандартных тестовых наборах данных и в соревнованиях по машинному обучению сейчас показывают методы параметрического обучения, такие как нейронные сети, бустинг деревьев решений, методы факторизации и ансамблевые методы. Однако при использовании систем машинного обучения на практике ситуация кардинально иная. Мы обсудим различия между промышленными и академическими системами машинного обучения, которые приводят к необходимости комбинирования параметрических и непараметрических моделей — современных вариантов алгоритмов ближайших соседей. Комбинированный подход оказывается особенно полезен в случае систем, в которых дообучение должно производиться оперативно, как, например, в системах голосовых помощников.