|
|
Стохастический анализ в задачах
7 декабря 2013 г. 11:00, г. Москва, Большой Власьевский переулок, дом 11
|
|
|
|
|
|
Моделирование кликов пользователя для экспериментов смешивания поисковых выдач
Д. Н. Валгушев Московский физико-технический институт (государственный университет), г. Долгопрудный Московской обл.
|
Количество просмотров: |
Эта страница: | 193 |
|
Аннотация:
В настоящее время поисковые сервисы активно проводят эксперименты по смешиванию поисковых выдач от разных источников (например, выдач, сгенерированных разными формулами или разными поисковиками) для их сравнения по пользовательскому поведению и кликам [1, 2]. Методы смешивания и оценки результатов исследованы довольно хорошо [2].
$$$$
Однако, возникает задача исследования методов ранжирования поисковых запросов, решение которой позволит определять на каких типах запросов происходит наибольшее улучшение/ухудшение качества выдачи. Для такого рода исследований необходима модель кликов пользователя по результатам поиска. Эта модель должна отличаться от уже существующих тем, что она учтет смешивание двух выдач и различие в их качестве.
$$$$
Была построена модель на основе марковской сети [3]. Такой тип модели был выбран из-за простоты и небольшого количества параметров. Отличие от обычной марковской модели состоит в том, что для каждого запроса условные вероятности перехода регулировались в зависимости от параметров выдачи: улучшение качества на экспериментальной выдаче, размер общего топа смешиваемых выдач и некоторых других параметров.
$$$$
Обучение параметров модели происходило методом максимального правдоподобия на реальных данных. Достигнуто статистически значимое совпадение моделируемых и реальных распределений важных характеристик запросов.
$$$$
На модельных данных было применено ранжирование запросов на основе построения доверительных интервалов для разности пропорций [4]. Проведено сравнение методов на основе модификации метрики ClasSi [5].
$$$$
Литература:
$$$$
1. Radlinski F. [et al.]. How Does Clickthrough Data Reflect Retrieval Quality? – Proceedings of CIKM. – 2008. – С. 43-52.
$$$$
2. Chapelle O. [et al.]. Large-Scale Validation and Analysis of Interleaved Search Evaluation. – ACM Transactions on Information Systems. – 2012. – V. 30.
$$$$
3. Baeza-Yates R. [et al.]. Modeling User Search Behavior. – Proceedings of Third Latin America Web Congress. – 2005.
$$$$
4. Brown L. [et al.]. Confidence intervals for two sample binomial distribution. – Journal of statistics planning and inference. – 2003.
$$$$
5. Ivanescu A.M. [et al.]. ClasSi: Measuring Ranking Quality in the Presence of Object Classes with Similarity Information. – New Frontiers in Applied Data Mining. – 2012.
|
|