Аннотация:
Доклад посвящен знаменитой проблеме многорукого бандита и ее применениям в веб-поиске. Проблема происходит от задачи игрока в казино, который дергает ручки игральных автоматов.
Шаг игры состоит в том, что игрок выбирает ручку, получает некоторый выигрыш, который является выборкой из некоторого заранее неизвестного вероятностного распределения, ассоциированного с данной ручкой, и обновляет информацию о наблюдаемых выигрышах выбранной ручки. Цель игрока — максимизировать математическое ожидание суммарного выигрыша, полученного игроком в течение некоторого определенного количества шагов. Для этого ему приходится выбирать баланс между эксплуатированием ручек, которые которые приносили выигрыш в прошлом, и экспериментированием с ручками, которые недостаточно хорошо были опробованы ранее.
Задача коммерческой поисковой системы обычно рассматривается как задача машинного обучения: есть примеры размеченных релевантных и нерелевантных пар (запрос, документ), есть набор числовых признаков, которые могут быть автоматически посчитаны для любой такой пары, и нужно обучить модель (функцию от признаков), которая ранжирует документы по убыванию их релевантности. Однако, это лишь первое приближение к задаче. Оно не учитывает интерактивную оставляющую взаимодействия с пользователями, которые своим поведением на страницах с результатами поиска дают системе неявный фид-бек. Задача поисковой системы может быть сформулирована как задача многорукого бандита различными способами. Я рассмотрю основные имеющиеся подходы, некоторые недавние продвижения и дальнейшие актуальные задачи в этом направлении.