Аннотация:
Моя задача – немного рассказать о работе исследователей Yandex Research: об их тематиках, о сути научно-технических задач, о полученных результатах и стоящих перед ними проблемах. Немного, потому что за вечер можно рассказать только немного и потому что я сам не успеваю все охватить. Я отобрал несколько сюжетов, в которых я разбираюсь и которые не требуют большого и сложного введения.
Первый сюжет – это идея перехода от абсолютной метрики качества (обычно среднее значение наблюдаемой величины) к относительной. Среднее значение метрики качества зачастую не чувствительно к улучшениям системы, но некоторые выводы можно сделать, оценивая относительное изменение ее распределения.
Второй сюжет – это задача агрегации шумных оценок работников Толоки (наш краудсорсинговый сервис). Я расскажу про некоторые классические методы обучения без учителя, основанные на генеративных моделях, которые из нескольких оценок одного объекта выбирают одну, наиболее вероятную.
Третий сюжет – о том, как при обучении системы на основе кликов пользователей (например, ранжирования результатов по запросу) оценивать, как изменилась бы вероятность клика по результату, если бы его позиция на странице поменялась. Это называется контрфактическим обучением в офлайне.
Если останется время, я расскажу еще про несколько сюжетов, включая активное обучение ранжированию и задачу филтьрации факторов на основе взаимной информации с лейблом класса.