Главная   О компании   Разработки   АТ.Трейдинг  


АТ.Поиск   Сервисы   Форум

О частотных паттернах в SeoPult Max. Для не математиков

Илья Зябрев, Олег Пожарков, Ирина Пожаркова, 29.11.2011.



В статьях [1] и [2] мы описали алгоритм построения множества доноров для продвижения сайта в поисковых системах, который показал хорошую эффективность в реальных экспериментах. Данный алгоритм на сегодня реализован в системе SeoPult под названием SeoPult Max. Однако у клиентов системы SeoPult часто возникает непонимание сути алгоритма, в частности термина «частотный паттерн», потому, что не хватает математического образования. В данной статье мы попытались объяснить некоторые детали SeoPult Max с помощью более простых слов и картинок.

Для начала определимся, что понимать под частотным распределением факторов или просто, для краткости, распределением. Рассмотрим для примера некоторого абстрактного акцептора, на который проставлено 100 ссылок. Для простоты возьмем понятное всем свойство доноров, с которых проставлены ссылки – тИЦ сайта донора. Пусть тИЦ наших доноров находится в интервале от 0 до 950. Разобьем отрезок 0..1000 на 10 равных частей (0-90, 100-190 и т.д.) и посчитаем, сколько значений тИЦ доноров попало в каждую из них. Данные занесем в таблицу 1, где столбец 1 это интервалы значений тИЦ, а столбец 2 – количество доноров (или частота) со значением тИЦ, попадающим в соответствующий интервал.

Таблица 1.

Интервал значений тИЦЧастота
0-9050
100-19028
200-2907
300-3904
400-4903
500-5902
600-6902
700-7902
800-8901
900-9901
Итого100

У акцептора из нашего примера 50 доноров, у которых тИЦ попадает в интервал от 0 до 90, 28 – у которых тИЦ попадает в интервал от 100 до 190 и т.д. Частоты в столбце 2 абсолютные, но зачастую удобнее использовать относительные частоты, которые в данном случае показывают долю доноров, ТИЦ которых попадает в соответствующий интервал. Для перехода к относительным частотам необходимо разделить абсолютные частоты на общее количество доноров, т.е. в данном случае на 100 (таблица 2).

Таблица 2.

Интервал значений тИЦОтносительная частота
0-900,50
100-1900,28
200-2900,07
300-3900,04
400-4900,03
500-5900,02
600-6900,02
700-7900,02
800-8900,01
900-9900,01
Итого1

Данные, представленные в таблице 2, и есть частотное распределение значений тИЦ доноров нашего гипотетического акцептора. Графически данное распределение выглядит так:

Рисунок 1. Ступенчатый график распределения тИЦ (гистограмма)

На рисунке 2 представлен тот же график, но в более привычной, линейной, форме, где линия проведена через начала интервалов:

Рисунок 2. Линейный график распределения тИЦ

Итак, распределение показывает как «распределены» значения фактора (в данном примере тИЦ) среди всех доноров одного акцептора. Т.е. для построения одного распределения нужно: один фактор, один акцептор и все его доноры.

По каждому фактору (мы используем 184 фактора) можно построить распределение. Итого, на каждого акцептора мы получим по 184 распределения, которые образуют его частотный паттерн и показывают, как распределены значения факторов среди его (акцептора) доноров.

Алгоритм, реализованный в SeoPult Max, строит частотные паттерны для топ-50 выдачи Яндекса по заданному запросу. При этом считается 50 х 184 = 9200 распределений факторов для получения 50-ти частотных паттернов. На основе этих распределений строится «идеальный» частотный паттерн для запроса, который также состоит из 184-х распределений. По каждому из факторов, «идеальный» частотный паттерн обладает свойствами, явно выраженными в топ-10 (с усилением к топ-3) и, как правило, слабее выраженными вне топа. Как показали наши эксперименты ([1], [2]), акцептор с частотным паттерном, близким к «идеальному», имеет очень большие шансы для выхода в топ по нужному запросу. То, как происходит вычисление частотных паттернов, мы покажем на конкретном примере.

Для примера работы алгоритма выберем 3 фактора из 184:

TRaslm - релевантность донора заданному запросу. На странице донора в анкоре ссылки на акцептор могут быть слова нашего запроса. Также такие слова могут быть и в тексте страницы-донора, если он например тематичен акцептору, или же на ней стоят аналогичные ссылки на другие сайты. Таким образом, релевантность донора запросу будет явно больше нуля. Хотя на акцептор могут ссылаться и с другими анкорами, если он продвигается по разным группам запросов. В таком случае релевантность донора запросу будет нулевой. Фактор TRaslm считается на основе формулы релевантности aSLM:

где t - леммы слов донора D, Q-множество лемм слов запроса, aSLM – аппроксимированная спектральная языковая модель ([3]). Другими словами TRaslm – это сумма значений aSLM лемм донора, которые встречаются в запросе. Лемма в данном случае - каноническая форма слова.

TRCross - индекс взаимной релевантности донора и акцептора, который можно еще назвать «псевдо тематичностью». Считается для связки донор-акцептор. Суть этого фактора следующая. Тексты донора и акцептора могут пересекаться по какому-то набору слов. Для каждого слова из текста вычисляется значение релевантности документа запросу «слово». Сумма таких релевантностей по пересечению слов в текстах донора и акцептора, деленная на сумму всех релевантностей слов из текстов и даст значение TRCross. Формула для фактора выглядит так:

где td – леммы слов донора D, ta-леммы слов акцептора A.

HostDist - «расстояние» между хостами. Считается для связки донор-акцептор на основании их ip-адресов. Данное расстояние используется Яндексом для вычисления фактора HostRank ([4]). Формула фактора:

где n - целое число от 0 до 31, номер старшего бита, на котором различаются ip-адреса хостов донора D и акцептора A. Если ip-адреса совпадают, то HostDist(A,D)=0.

Посчитаем три определенных выше фактора для конкретного запроса «продвижение сайтов», главного запроса в сео-отрасли. На момент написания этой статьи топ-10 выдачи Яндекса выглядел следующим образом (мы взяли 10 первых сайтов по запросу, без учета «спектральной» примеси):

  • demis.ru
  • seo-dream.ru
  • bdbd.ru
  • vipseo.ru
  • promo.ingate.ru
  • vipro.ru
  • intelsib.ru
  • advans.ru
  • optimism.ru
  • buyfish.ru

В таблице 3 представлены распределения значений факторов доноров для каждого акцептора

Таблица 3.

СтраницаРаспределение TRaslmРаспределение TRCrossРаспределение HostDist
demis.ru
seo-dream.ru
bdbd.ru
vipseo.ru
promo.ingate.ru
vipro.ru
intelsib.ru
advans.ru
optimism.ru
buyfish.ru

Для сравнения разместим все распределения по каждому из факторов на одном графике (рисунки 3-5):

Рисунок 3. Распределения по фактору TRaslm

Рисунок 4. Распределения по фактору TRCross

Рисунок 5. Распределения по фактору HostDist

Как видно практически по всем трем факторам распределения, построенные для каждого сайта из топа, имеют схожий вид, на основании чего можно выделить для каждого из факторов закономерность и построить «идеальный» частотный паттерн (рисунки 6-8). Методы построения такого паттерна описаны не будут, на рисунках он показан жирной черной линией:

Рисунок 6. «Идеальный» частотный паттерн для фактора TRaslm (паттерн FP1 – жирная черная линия)

Рисунок 7. «Идеальный» частотный паттерн для фактора TRCross (паттерн FP2 – жирная черная линия)

Рисунок 8. «Идеальный» частотный паттерн для фактора HostDist (паттерн FP3 – жирная черная линия)

Для сравнения построим аналогичные характеристики для сайтов с четвертой страницы топа (рисунки 9-11):

  • seo-mark.ru
  • drseo.ru
  • infinity-promo.ru
  • utexpro.ru

Рисунок 9. Частотные паттерны для фактора TRaslm (паттерн FP1 – жирная черная линия) с распределениями для акцепторов четвертой страницы топа.

Рисунок 10. Частотные паттерны для фактора TRCross (паттерн FP2 – жирная черная линия) с распределениями для акцепторов четвертой страницы топа.

Рисунок 11. Частотные паттерны для фактора HostDist (паттерн FP3 – жирная черная линия) с распределениями для акцепторов четвертой страницы топа.

Как видно из рисунка 15, по фактору HostDist распределения вполне соответствуют «идеальному» частотному паттерну, а вот по факторам TRaslm (utexpro.ru и seo-mark.ru) и TRCross (все 4 сайта) далеки от «идеала». Чтобы повысить шансы этих сайтов выйти на первую страницу топа, согласно предлагаемой технологии, необходимо перестроить множества доноров так, чтобы их распределения были как можно более близки к «идеальным» частотным паттернам.

В реальной технологии такой анализ проводится по 184 факторам, при этом постоянно отслеживается соответствие распределений текущему паттерну. Перестройка множества доноров происходит, исходя из заданного бюджета и принципа минимальных изменений уже существующего множества, что подробно описано в [2].

По данной технологии у пользователей SeoPult Max могут возникнуть вопросы, на некоторые мы ответим:

Вопрос: Зачем нужно так много факторов? В приведенном выше примере мы получили очевидное отличие топа по TRCross, может быть достаточно только его?

Ответ: Дело в том, что рассчитываемые в алгоритме 184 фактора достаточно точно определяют отличие топовых сайтов по запросу. Для разных запросов отличия топовых сайтов по отдельному фактору могут быть не так ярко выражены (например, в примере выше по фактору HostDist). Наши исследования показали, что для данного алгоритма 184 – минимальный достаточный набор.

Вопрос: В системе SeoPult учитываются не все ссылки на сайты в текущих топах, как это влияет на качество получаемых данных?

Ответ: Влияет незначительно, в среднем – на уровне погрешности. SeoPult учитывает достаточное количество ссылок для точного вычисления «идеального» частотного паттерна. Это подтверждается результатами наших экспериментов: по большому пулу запросов мы брали три варианта множеств доноров – множество доноров SeoPult, оно же + данные из независимых источников (Yahoo, Solomono и др.) и данные выгрузки из Яндекс.вебмастер. Во всех трех случаях построенные «идеальные» частотные паттерны были почти идентичны.

Вопрос: Многие топы выдачи Яндекса при апдейтах значительно меняются. Что при этом происходит с «идеальным» частотным паттерном? Он так же меняется и нужно закупать ссылки по другим правилам?

Ответ: Нет, как показали наши длительные эксперименты, «идеальный» частотный паттерн для запроса меняется незначительно, не только при простых апдейтах, но и при изменениях формулы ранжирования. Он показал отличную устойчивость к изменениям в Яндексе. Хотя иногда изменения и происходят, причем они не обязательно связаны с изменениями топа выдачи, иногда изменяется ссылочная масса у топовых сайтов.

На момент написания статьи некоторые клиенты SeoPult пользуются технологией Max уже больше месяца и многие из них получили явный рост позиций для своих сайтов. Что еще раз подтверждает эффективность данной технологии.

Литература:

[1] Зябрев И.Н., Пожарков О.В., Пожаркова И.Н. Алгоритм отбора максимально эффективного множества доноров для продвижения сайта в поисковых системах..

[2] Зябрев И.Н., Пожарков О.В., Пожаркова И.Н. Реализация и анализ эффективности метода построения оптимального множества доноров для продвижения сайта в поисковых системах

[3] Зябрев И.Н., Пожарков О.В., Пожаркова И.Н. Спектральные характеристики в задачах обработки текстовой информации. Труды RCDL’2011, Воронеж, Россия, 2011, с 374-377.

[4] Y. Pritykin, V. Koshelev Properties of Hostgraph Enriched with IP Information. Труды RCDL’2011, Воронеж, Россия, 2011, с 378-381.



Нравится


Поисковые исследования:

Алгоритмы ранжирования Яндекса:


 

Copyright AlterTrader Research Ltd. 2004-2017.
All Rights Reserved.

Design: af@altertrader.com