Главная   О компании   Разработки   АТ.Трейдинг  


АТ.Поиск   Сервисы   Форум

Алгоритм отбора максимально эффективного множества доноров для продвижения сайта в поисковых системах.

Илья Зябрев, Олег Пожарков, Ирина Пожаркова, 10.06.2011



В задачах поисковой оптимизации сайтов одним из наиболее эффективных методов продвижения является покупка ссылок. У каждого оптимизатора есть собственная технология, согласно которой он формирует множество страниц-доноров для простановки ссылок на страницу-акцептор. Такие технологии зачастую слабо формализованы и представляют собой результат объединения приобретенного опыта, знаний и интуиции. Данная статья посвящена разработке формализованного алгоритма формирования эффективного множества доноров.

1. Эффективность множества доноров

Для решения задачи формирования оптимального множества доноров введем понятие его эффективности. Эффективность множества доноров является оценкой увеличения релевантности оптимизируемого акцептора относительно целевого запроса: E(D,q,a), где D={d} - множество доноров, A={a} - множество акцепторов, q - запрос. Для оценки эффективности донора построим донорно-акцепторный граф DAG(D,A,DA), где DA={da(d,a)} - ребра графа, соединяющие вершины d и a, между которыми есть ссылочная связь. Целесообразно оценивать эффективность донора на основе позиции его акцептора в топе по целевому запросу (релевантности), однако положение сайта в выдаче является следствием влияния большого числа факторов. Поэтому в общем случае выделить одного донора и определить его влияние на релевантность сайта невозможно и к оценке эффективности множества доноров необходимо подходить комплексно, рассматривая релевантность сайта как результат воздействия всего множества его доноров.

Множество доноров акцептора a это множество вершин множества D, смежных с а:

Так как релевантность сайта определяется только относительно запроса, для анализа необходимо сформировать запросный граф: QG(Q,A,QA), где Q={q} - множество запросов, QA={qa(q,a)} – ребра графа, соединяющие вершины q и a, если a есть в топе заданной глубины по запросу q (рассчитанная нами оптимальная глубина топа – 50 позиций). Граф , полученный в результате объединения QG и

можно представить как множество деревьев запросов

Корнем такого дерева является запрос q, первым уровнем дерева – множество смежных с запросом (релевантных) акцепторов, а на нижнем уровне – множество всех доноров для этих релевантных запросу акцепторов. Таким образом, по любому запросу q можно получить объединенное множество доноров, релевантных запросу акцепторов, на основе которого можно проводить частный анализ эффективности. Обозначим это множество доноров для запроса, как

Для проведения анализа мы выделили множество свойств донора FD={fd} размерностью 184. Среди этих свойств - статические, динамические и другие особенности страниц-доноров. Данный набор свойств (факторов) был разработан для решения задачи отбора максимально эффективного множества доноров при продвижении сайта и не имеет ничего общего с множеством факторов, которые используют для расчета релевантности документа запросу поисковые системы.

В качестве базовой поисковой системы для формирования запросных деревьев был выбран Яндекс, так как на его долю приходится самая значительная часть рынка информационного поиска в России. По каждому запросу из сформированной для исследований выборки на основе поисковых ответов Яндекса было построено множество DPQ. Для каждого фактора множества FD мы построили условные распределения их значений F(fd|R) с учетом ранга R акцептора, присвоенного поисковой системой. Далее, применяя для анализа полученных распределений статистический аппарат и, в частности, корреляционный анализ, мы получили следующие результаты:

  • Эффективность множества доноров зависит и от запроса, и от акцептора. В общем случае один и тот же донор при разных запросах и для различных акцепторов дает разную эффективность.
  • Наиболее эффективные с точки зрения максимальной релевантности акцепторов запросу множества доноров DPA(a) имеют хорошо формализуемые частотные паттерны (FP) значений FD(d):

    Под частотным паттерном понимается совокупность частотных распределений значений факторов F(fd),

    полученных на основе анализа условных распределений F(fd|R) и наиболее эффективных с точки зрения положения акцептора в топе поисковой системы. Распределения факторов, образующие частотный паттерн являются комбинацией условных распределений с учетом рангов, выявленных корреляционных зависимостей и т.д.
  • Для заданной пары запрос-акцептор (q,a) на основе запросного дерева QT(q) можно построить частотный паттерн, который соответствует наиболее эффективному множеству доноров. Другими словами, взяв за основу частотный паттерн, можно из множества доноров выбрать такие, что распределения их свойств f(fd) будут максимально близки к FP, а в идеале полностью совпадать. Полученное таким образом подмножество доноров будет максимально эффективным для заданной пары запрос-акцептор.
  • Между наиболее эффективными по запросу множествами доноров и акцепторами нет взаимно-однозначного соответствия, так как при достаточно большой базе доноров (например, в крупной ссылочной бирже) практически всегда существует больше одного максимально эффективного подмножества.
  • Вероятностный характер паттернов позволяет использовать методы обнаружения разладки для того, чтобы определять момент, когда распределения значений факторов перестают соответствовать частотным паттернам и соответственно адаптировать множество доноров к изменившимся условиям.

2. Задача построения эффективного множества доноров как задача оптимизации

Таким образом, задача построения эффективного множества доноров для заданных запроса и акцептора сводится к задаче оптимизации вида:

  • D={d} – множество доноров
  • Q - целевой запрос
  • An={an} - множество текстов анкоров
  • A - оптимизируемый акцептор
  • P(d) - стоимость донора d
  • Pc – предельная суммарная стоимость множества доноров.

Необходимо сформировать множество

максимизирующее значение эффективности E(OD,q,a)->max, при действующих ограничениях на суммарную стоимость:

Мощность множества OD сверху не ограничивается. Отметим, что решение задачи формируется в виде пар (донор; текст анкора), так как an является параметром для некоторых значимых факторов донора. Ниже под элементами оптимального или эффективного множества доноров понимаются доноры с уже привязанным к ним текстами анкоров.

Так как эффективность, как было показано выше, определяется степенью близости распределений свойств множества доноров к частотному паттерну, то максимум эффективности будет достигаться при минимуме невязки между ними:

где fi(fdi,OD) - распределение значений фактора fdi, построенное над множеством доноров OD, FPi(fdi, q, a) – паттерновое распределение фактора fdi, построенное для пары (q,a).

Таким образом, задача построения оптимального множества доноров OD для пары (запрос q, акцептор a), формулируется в виде:

Целевая функция:

Ограничения:

3. Методы решения задачи построения оптимального множества доноров.

Так как для вычисления целевой функции необходимо строить распределения и паттерны на основе статистического анализа, то свести ее вид к аналитическому невозможно. Поэтому большинство методов решения задач оптимизации в данном случае не подходят. Самый простой способ найти оптимальное решение данной задачи – метод перебора всех подмножеств доноров, укладывающихся в стоимостные ограничения, однако явный недостаток этого метода – время поиска оптимума. Так как количество доноров, по сути, ограничено сверху лишь размером бюджета на продвижение запроса, то количество различных комбинаций элементов подможества OD, при большой размерности множества доноров OD – огромно. Например, если в наличии всего 1000 потенциальных доноров и мы можем выбрать любые 100 из них, то общее число сочетаний только для одного текста анкора равно

А на ссылочных биржах размерность множеств доноров исчисляется десятками и сотнями миллионов, кроме того задача усугубляется большим числом различных текстов анкоров. Поэтому в реальности количество разнообразных множеств доноров будет на сотни порядков выше и для их перебора могут понадобиться годы.

Еще один возможный подход - «жадный» алгоритм, когда на каждой итерации в оптимальное множество включается донор, минимизирующий значение целевой функции сильнее всего. Однако такой метод, обладая очень высокой по сравнению с перебором скоростью, в итоге формирует множество доноров, сильно отличающееся от заданного частотным паттерном.

Генетический алгоритм оптимизации решает задачу существенно быстрее простого перебора, но все-таки недостаточно быстро и при этом полученные множества не всегда являются наилучшими. Поэтому мы модифицировали генетический алгоритм следующим образом:

  • Частотный паттерн разбивается на несколько отдельных паттернов, так чтобы в совокупности полученные распределения соответствовали исходным. При этом разбиение производится исходя из характерных особенностей распределений паттерна.
  • Для каждого полученного паттерна задача оптимизации решается отдельно при помощи генетического алгоритма. При этом у всех задач общий суммарный бюджет и вводится штрафная функция, не допускающая использования одних и тех же доноров в решениях для разных паттернов. При наличии вычислительного кластера оптимизация проводится параллельно, что существенно повышает скорость решения задачи.
  • Полученное таким образом совокупное оптимальное множество доноров является сравнимым по качеству с решением задачи на основе простого генетического алгоритма. При этом, за счет использования параллельных вычислений, метод находит оптимум гораздо быстрее.

Для сравнения эффективности различных методов мы провели сравнительный анализ решения задачи построения оптимального множества доноров на базе одного компьютера. Было выделено два запросных множества: низкобюджетное – релевантные запросу сайты имеют малое число доноров и высокобюджетное - с большой размерностью множества DPQ(q). Для первого множества мы решали задачу оптимизации всеми описанными выше методами, в то время как для второго метод перебора был исключен, т.к. оценочное время перебора всех комбинаций было слишком велико. Исходные данные для анализа были предоставлены нашими партнерами – ссылочными биржами и агрегаторами. Проведенное тестирование показало, что решение, полученное при помощи модифицированного генетического алгоритма, довольно близко к глобальному минимуму целевой функции, полученному методом перебора. При этом время поиска оптимума сравнительно небольшое, поэтому по совокупности параметров МГА является наиболее эффективным из представленных методов. Стоит отметить, что данное сравнение производилось на небольшом множестве доноров и малом бюджете, ограничивающем размерность оптимального множества. Поэтому на практике время решения будет на порядки выше и, чтобы эффективно использовать метод, потребуется большой вычислительный кластер.

4. Заключение

Предлагаемый алгоритм позволяет формировать максимально эффективное множество доноров для заданной страницы сайта, запроса и списка текстов анкоров на основе анализа запросных деревьев, построенных с использованием индекса поисковых систем. К его недостаткам стоит отнести большую вычислительную сложность, что делает невозможной его реализацию на кластере малой вычислительной мощности для использования на множествах доноров ссылочных бирж без предварительной фильтрации. Однако, при наличии достаточных вычислительных мощностей, данный метод может существенно повысить эффективность поисковой оптимизации, так как на его базе можно решать следующие задачи:

  • Построение оптимального множества доноров для заданного документа, запроса, множества текстов анкоров и бюджета.
  • Анализ текущего множества доноров с точки зрения его эффективности.
  • Анализ эффективности множества доноров в динамике и его коррекция при снижении эффективности.
  • Оценка эффективности отдельных доноров.

Для проверки работоспособности предлагаемого метода было проведено следующее исследование. Было выбрано 80 пар (запрос; документ), находящихся на продвижении у одного из наших партнеров. Первые 40 из них – новые запросы, не продвигавшиеся ранее, вторые 40 - «проблемные» запросы, которые продвигаются не менее полугода, но так и не вошли в топ-10 Яндекса, находясь на второй или третьей странице поисковой выдачи. На основе рассматриваемой методики была проведена оптимизация множеств доноров для каждого из выбранных акцепторов. В результате проведенных работ все 100% документов вошли в топ-10, причем 70% из них - в топ-5. Такой результат говорит о высокой эффективности предлагаемого метода.

Данная статья носит вводный характер, поэтому подробному описанию проведенных исследований и их результатов, а также подробному рассмотрению возможностей применения алгоритма будет посвящена отдельная публикация.



Нравится


Поисковые исследования:

Алгоритмы ранжирования Яндекса:


 

Copyright AlterTrader Research Ltd. 2004-2017.
All Rights Reserved.

Design: af@altertrader.com