Главная   О компании   Разработки   АТ.Трейдинг  


АТ.Поиск   Сервисы   Форум

Поведенческие (кликовые) факторы в информационном поиске. Обзор.

Илья Зябрев, Олег Пожарков, Ирина Пожаркова, 28.05.2012.



Данная статья носит описательно-справочный характер и посвящена обзору наиболее часто используемых информационном поиске поведенческих (кликовых) факторов.

Поведенческие (кликовые) факторы в последнее время все более и более активно используются для решения различных задач информационного поиска. В частности, на их основе производятся исследования релевантности документов с точки зрения обычных пользователей, а не специально подготовленных асессоров. Такой подход в совокупности с экспертными оценками может быть очень эффективным. Более того, в отдельных случаях использование машинного обучения позволяет строить регрессионные модели релевантности документов довольно высокой точности на основе только поведенческих характеристик. В настоящее время разработано множество разнообразных кликовых факторов, характеризующих различные составляющие поведения пользователя. В данной статье произведена подборка и условная систематизация наиболее часто используемых поведенческих характеристик.

Кликовые (поведенческие) факторы это совокупность характеристик, описывающих поведение пользователя в запросном поиске по отношению к документам, сайтам, запросам и их результатам и пр. Большинство из этих факторов формируются на основе логов пользовательских поисковых сессий. Каждый такой лог содержит следующие данные:

  • Запрос и время запроса
  • Ответ поисковой системы на запрос в виде списка документов, отранжированных в порядке убывания релевантности (выдача).
  • Клики (переходы) на документы из списка и время кликов.

Эти данные группируются по сессиям, соответствующим отрезку времени между началом и концом работы пользователя с поисковой системой. Принципы разбивки на сессии у разных систем сбора таких логов могут отличаться. Обычно сессия заканчивается при отсутствии активных действий в течение заданного промежутка времени. Новая сессия начинается с запроса. Зачастую при построении лога учитывается и регион, в котором находится пользователь.

Вне поисковых сессий сбор данных производится на основе различных инструментов:

  • Собственные системы сбора статистики поисковых компаний (Яндекс.Метрика, Google Analytics), отслеживающие действия пользователей на страницах сайтов, в которые интегрированы соответствующие модули.
  • Сторонние системы сбора статистики (LiveInternet, SpyLog и пр.)
  • Собственные плагины (toolbar), интегрируемые в браузеры (Яндекс.Бар, Google Toolbar) и собирающие данные о действиях конкретного пользователя.
  • Сторонние независимые плагины, интегрируемые в браузеры (Neiron и пр).
  • Собственные браузеры (Google Chrome), также собирающие данные о действиях конкретного пользователя.

Полученных таким образом данных достаточно для построения разнообразных поведенческих факторов. Ниже представлены наиболее часто используемые характеристики, собранные из различных литературных источников1-12.

Обозначения: q - запрос, d - документ, h - хост, v - выдача поисковой системы по запросу, s - сессия, r - регион, u - пользователь.

1. Факторы документа, не зависящие от запроса

Imp(d) – число показов документа d по всем выдачам, в которых он встречался.

суммирование производится по всем запросам q, где в выдаче встречался документ d.

Click(d) – число кликов на документ d по всем выдачам, в которых он встречался.

суммирование производится по всем запросам q, где в выдаче встречался документ d.

CTR(d) – CTR d по всем выдачам.

QClickNum(d) – число запросов, в выдачах по которым были клики на документ d.

DocVisitors(d,t) – число уникальных посетителей документа d за временной интервал t.

DocVisits(d,t) - число посещений документа d за временной интервал t.

DocAvgTime(d) - среднее время просмотра документа d.

где ViewTime(s,d) – время просмотра документа d во время сессии s, DocViewSessionNum(d) - число сессий, в которых был просмотрен d. Суммирование производится по всем сессиям, где был просмотрен d.

DocAvgAction(d) - среднее количество активных действий пользователя на документе d

где DocActNum(s,d) – число активных действий пользователя на документе d в сессию s, суммирование производится по всем пользователям u и их сессиям пользователя s(u), во время которых был просмотрен d.

2. Факторы документа, зависящие от запроса.

2.1. Простые кликовые факторы (CTR).

QImp(q,d) – число показов документа d в выдачах по запросу q.

QClick(q,d) – число кликов на документ d в выдачах по запросу q.

QCTR(q,d) – CTR d по в выдачах по запросу q

FirstCtr(q,d) – CTR, когда d кликается первым в выдаче по запросу q.

где FirstClickCount(q,d) - количество раз, которое d был кликнут первым в выдаче по запросу q.

LastCtr(q,d) – CTR, когда d кликается последним в выдаче по запросу q.

где LastClickCount(q,d) - количество раз, которое d был кликнут последним в выдаче по запросу q.

OnlyCTR(q,d) – CTR, когда кликается только d, по всем выдачам по q.

где OnlyDClickCount(q,d) - количество раз, которое документ d был кликнут и это был единственный клик в выдаче по запросу q.

%DocClicks(q,d) - доля кликов по документу d в выдачах по запросу q.

суммирование производится по всем документам, на которые кликали в выдачах по запросу q.

QRCTR(q,d,r) - CTR(q,d), вычисленный для региона r.

где QRCLick(q,d,r) - число кликов по документу d в выдачах по запросу q по данным региона r, где QRImpk(q,d,r) - число показов документа d в выдачах по запросу q по данным региона r.

%RDocClicks(q,d,r) - доля кликов по документу d в выдачах по запросу q по данным региона r.

суммирование производится по всем документам, на которые кликали в выдачах по запросу q в регионе r.

2.2. Временные факторы.

AvgDocClickTime(q,d) – среднее время до клика на d после показа выдачи по запросу q.

где v принадлежит v(q,d) – выдача по запросу q, в которой d был кликнут (суммирование производится по всем выдачам по запросу q, где d был кликнут), ClickTime(d,v) – время клика по документу d в выдаче v, ShowTime(v) - время показа выдачи v.

AvgViewTime(q,d) - среднее время просмотра документа d по запросу q.

где v - выдачи по запросу q, в которых был кликнут d, ClickTime(d+1,v) – время следующего после d клика. Если раньше следующего клика идет следующий запрос, то ClickTime(d+1,v) = ShowTime(v+1).

2.3. Факторы, зависящие от позиции документа или номера клика

AvgDocPos(q,d) - средняя позиция d в выдачах по запросу q.

где DocPos(v,d) - позиция документа d в выдаче v.

AvgDocClickPos(q,d) - средний номер клика d в выдачах по запросу q.

где DocClickPos(v,d) - порядковый номер клика по документу d в выдаче v.

AvgDocClickInvPos(q,d) - средний номер клика d с конца в выдачах по запросу q.

где VNumClicks(v) - общее число кликов по выдаче.

AvgNumBefore(q,d) – среднее число документов, стоящих в выдаче по запросу q перед d, которые были кликнуты перед d.

где UpBeforeNum(d,v) - число документов, стоящих в выдаче v выше d и по которым кликнули раньше d.

AvgNumPast(q,d) – среднее число документов, стоящих в выдаче по запросу q перед d, которые были кликнуты после d.

где UpPastNum(d,v) - число документов, стоящих в выдаче v выше d и по которым кликнули позже d.

2.4. Вероятностные факторы

LastProb(q,d) - вероятность быть последним документом, кликнутым по запросу q.

где LastDocClickNum(q,d) - число раз, когда d был кликнут последним в выдаче по запросу q.

UpProb(q,d) – вероятность клика на документ, находящийся в выдаче по q на позицию выше d.

где UpDocClickNum(q,d) - число раз, когда в выдаче по запросу q был кликнут документ стоящий на 1 позицию выше d.

DownProb(q,d) - вероятность клика на документы, находящиеся в выдаче по q ниже d.

где DownDocClickNum(q,d) - число раз, когда в выдаче по запросу q был кликнут документ стоящий на 1 позицию ниже d.

DoubleProb(q,d) – вероятность того, что по d кликнули два раза подряд.

где DocDoubleClickNum(q,d) - число выдач по запросу q, в которых по d кликнули два раз подряд.

PastBackProb(q,d) – вероятность того, что к документу вернулись после клика по одной из нижерасположенных ссылок.

где DocPastBackNum(q,d) - число выдач по q, в которых по d кликнули после того, как был кликнут хотя бы один документ, стоящий в выдаче после d.

BeforeProb(q,d) – вероятность того, что после клика на d, пользователь кликал по документам расположенным выше него.

где DocBeforeNum(q,d) - число выдач по q, в которых после клика на d кликнут хотя бы один документ, стоящий в выдаче перед d.

2.5. Факторы, отражающие активность пользователя

QDocVisitors(q,d,t) – число уникальных посетителей документа d за временной интервал t, при условии, что пользователь перешел из поисковой системы по запросу q.

QDocVisits(q,d,t) - число посещений документа d за временной интервал t, при условии, что пользователь перешел из поисковой системы по запросу q.

QDocAvgTime(q,d) - среднее время просмотра d, при условии, что пользователь перешел из поисковой системы по запросу q.

QDocAvgAction(q,d)-среднее количество активных действий пользователя на h, при условии, что пользователь перешел из поисковой системы по запросу q.

3. Факторы, зависящие от запроса и выдач

QShow(q) – количество показов по запросу q.

QClicks(q) – число кликов по выдачам запроса q.

AvgClickPos(q) – средняя позиция кликнутых документов по всем выдачам запроса q.

где v(q) – выдачи по запросу q, ClickPos(v) – номер кликнутого документа в выдаче v.

AvgWorkTime(q) – среднее время работы с запросом.

если кликов по v не было, то LastClickTime(v) заменяется на время следующей выдачи, если при этом v – последняя выдача в сессии, то LastClickTime(v) заменяется на ShowTime(v) (время работы с данной выдачей принимается равным нулю).

AvgWorkTime2(q) – среднее время работы с запросом.

где ShowTime(v+1) – время показа следующей за v выдачей, если v - последняя выдача в сессии ShowTime(v+1) = ShowTime(v).

AvgFirstPos(q) – средняя позиция документа, по которому кликают первым.

где v(q) - выдачи по запросу q, по которым был хотя бы один клик. FirstClickPos(v) - номер документа выдачи v, по которому кликнули первым, QNoClick(q) – число выдач по запросу q, в которых не было кликов.

AvgFirstTime(q) – среднее время до первого клика по выдаче по запросу q.

4. Независимые (сводные) факторы

NoClickNum – число запросов без кликов.

%NoClickNum – доля запросов без кликов.

OneClickNum – число запросов только с одним кликом.

%OneClickNum – доля запросов только с одним кликом.

AvgClickNum – среднее число кликов по выдаче.

AvgIndexInSession – среднее число выдач по запросу q в сессии.

где IndexNum(s) – число выдач в сессии s, SessionNum – число сессий.

AvgClickInSession – среднее число кликов в сессии.

%ClickDoc(i) - % наиболее кликовых документов. i=1..3. Пусть D1, D2, D3 - документы с максимальным числом кликов расположенные в порядке убывания кликов, тогда

где d - документы, по которым кликали хотя бы 1 раз.

PosCTR(k) – CTR в зависимости от места документа в выдаче k=1..10.

где v - выдачи, по документам которых кликали хотя бы раз, DClick(v,k) – число кликов по документу выдачи v, находящемся на месте k.

ClickEntropy – кликовая энтропия.

AvgTime2FirstClick – среднее время до первого клика по выдаче.

где v - выдачи, по которым были клики, FirstClickTime(v) – время первого клика по выдаче v.

AvgTime2LastClick – среднее время до последнего клика по выдаче.

где LastClickTime(v) – время последнего клика по выдаче v.

AvgTimeBetweenClicks – среднее время между двумя кликами.

5. Хостовые факторы

Примечание: практически все факторы первой и второй групп можно вычислять и для хостов, используя вместо функций от документов, аналогичные функции для всех документов заданного хоста.

HQImp(q,h) – число показов документов хоста h в выдачах по запросу q.

HQClick(q,h) – число кликов на документы h в выдачах по запросу q.

HQCTR(q,h) – CTR h по выдачам по запросу q

HImp(h) – число показов документов h по всем выдачам, где они есть.

суммирование производится по всем запросам q, в выдачах которого были документы h.

HClick(h) – число кликов на документы h по всем выдачам, где они есть.

суммирование производится по всем запросам q, в выдачах которого были документы h.

HCTR(h) – CTR h по всем выдачам.

%HostClicks(q,h) - доля кликов по документам h в выдачах запроса q.

суммирование производится по всем хостам, на документы которых кликали в выдачах по запросу q.

FirstWordCTR(q,h) - HQCTR хоста h, вычисленный для первого слова запроса q

LastWordCTR(q,h) - HQCTR хоста h, вычисленный для последнего слова запроса q

где len(q) - длина запроса в словах.

BR(h) – BrowserRank хоста h.

%SearchTraf(h) – доля трафика h от поисковых систем.

HostVisitors(h,t) – число уникальных посетителей хоста h за временной интервал t.

HostVisits(h,t) - число посещений h за временной интервал t.

QHostVisitors(q,h,t) – число уникальных посетителей хоста h за временной интервал t, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.

QHostVisits(q,h,t) - число посещений h за временной интервал t, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.

%HostIntTraf(h) – доля трафика h не по ссылкам (закладки, ручной ввод).

HostAvgTime(h) - среднее время просмотра сайта h.

где ViewTime(s,d) – время просмотра документа d во время сессии s, ViewDocNum(s,h) – количество просмотренных документов хоста h во время сессии s, суммирование производится по всем сессиям и всем документам хоста h.

HostAvgAction(h) - среднее количество активных действий пользователя на h

суммирование производится по всем пользователям u и их сессиям пользователя s(u).

QHostAvgTime(q,h) - среднее время просмотра сайта h, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.

QHostAvgAction(q,h)-среднее количество активных действий пользователя на h, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.

Кликовые факторы позволяют косвенно учитывать мнение пользователя о релевантности документов. Это можно и нужно использовать при решении задач информационного поиска, однако при этом следует не забывать о наличии обратной связи между поведением пользователя и моделями релевантности, построенными на основе кликовых факторов.

Литература

[1] O. Chapelle, Y. Zhang. A dynamic bayesian network click model for web search ranking.

[2] G.Dupret, C.Liao. A model to estimate intrinsic document relevance from the clickthrough logs of a web search engine.

[3] W. Chen, D. Wang, Y. Zhang, Z. Chen, A. Singla, and Q. Yang. A noise-aware click model for web search.

[4] N. Craswell, O. Zoeter, M. Taylor, and B. Ramsey. An experimental comparison of click position-bias models.

[5] Y.Liu, B.Gao, T.-Y.Liu, Y. Zhang, Z. Ma, S. He, H. Li. BrowseRank: Letting Web Users Vote for Page Importance.

[6] F.Guo, C. Liu, A. Kannan, T. Minka, M. Taylor, Y.-M. Wang, C. Faloutsos. Click chain model in web search.

[7] F.Guo, C.Liu, Y.M. Wang. Efficient multiple-click models in web search.

[8] Q.Guo, D.Lagun, D.Savenkov, Q.Liu. Improving Relevance Prediction by Addressing Biases and Sparsity in Web Search Click Data.

[9] E.Agichtein, E.Brill, S.Dumais. Improving web search ranking by incorporating user behavior information.

[10] F.Zhong, D.Wang, G.Wang, W.Chen, Y.Zhang,Z.Chen, H.Wang. Incorporating post-click behaviors into a click model.

[11] Y. Zhang, D. Wang, G. Wang, W. Chen, Z. Zhang, B. Hu, and L. Zhang. Learning click models via probit bayesian inference.

[12] J. Gao, W. Yuan, X. Li, K. Deng, J.Nie. Smoothing clickthrough data for web search ranking.



Нравится


Поисковые исследования:

Алгоритмы ранжирования Яндекса:


 

Copyright AlterTrader Research Ltd. 2004-2016.
All Rights Reserved.

Design: af@altertrader.com