Неуловимый Бандит Яндекса

В последнее время замечено, что Бандит стал чаще понижать сайты в выдаче
Сегодня в среде специалистов актуален вопрос, как более простым способом идентифицировать результаты работы Бандита в выдаче. Недавно Сергей Людкевич на сайте searchengines поднял данную проблематику и предложил комбинации с неранжирующим И «<<»: «запрос << (lang:ru | lang:en)» или «запрос << lang:ru» «запрос << date:<20170101». Это было бы действительно интересно, т.к. если разбирать ситуацию, используя метод попарного сравнения, то можно лишь проводить проверку уже выявленных кандидатов. Также дополнительно рассмотрим корректно ли работает попарное сравнение в выдаче. Попробуем разобраться в правильности гипотезы. Все данные ниже представлены в двух временных точках: 19 марта и 22 марта (+ 24 марта – отдельные документы). Данные собирались как по XML, так и по выдаче.

1. Про «не ранжирующие И»

Выдачи «запрос << date:<20170101» и «запрос << lang:ru» в целом похожи, а вот «запрос << (lang:ru | lang:en)» иногда дает сильно отличающиеся изменения (3-я колонка). Колонки:
  • запрос
  • место сейчас
  • документ
  • место «модифицированный дата»
  • разница с текущим состоянием
  • место «модифицированный lang:ru»
  • разница с текущим состоянием
  • место «модифицированный lang:ru | lang:en»
  • разница с текущим состоянием
И прочие. Выберем пока в качестве модификации запрос с датой. На примерах запросов «стройматериалы» и «пиломатериалы» по ТОП-100 имеем следующую картину:
  1. ТОП-10 по составу сохраняется на 70% и 60%.
  2. ТОП-10 по точной позиции сохраняется на 10% и 10%.
  3. ТОП-10 по +/- 1 сохраняется на 30%.
Порядок меняется достаточно значимо. Вывод: поскольку выдача меняется значимо (70-90%), то стоит рассмотреть только наиболее сильные изменения модифицированной выдачи к обычной как возможных кандидатов.

2. Корреляция сильно вылетевших с Бандитом

Возьмем сайты из ТОП-10, которые упали от 10 позиций при модифицированном запросе. Колонки:
  1. запрос
  2. место сейчас
  3. документ
  4. место «модифицированный дата»
Разница с текущим состоянием http://dostavka-stroymaterialov.ru/ - находится в ТОП-10 около года (ниже  - с 05/2015 по 18/03/2016)

Сложно отнести к Бандиту. http://www.RDStroy.ru/ - вылетал и появлялся, хотя изначально (до ввода Бандита был в ТОП-20)

Кандидат на проверку. http://www.pilomateriali.ru/ - находится в ТОП-10 около года, причем как правило в ТОП-1.

Практически невозможно отнести к Бандиту. http://www.lesobaza.ru/ - вылетал и появлялся, изначально был в ТОП-20.

Кандидат на проверку. https://ru.wikipedia.org/ - больше похоже на потребность в Википедии.

Сложно отнести к Бандиту. Также замечено, что многие сайты, которые по поведению вполне могли бы быть кандидатами, - не выявляются при таком подходе. Например, колонки:
  • запрос
  • место сейчас
  • документ
  • место «модифицированный дата»
  • разница с текущим состоянием

http://sbitsnab.ru/

http://les-snab.ru/

Выводсравнение модифицированной выдачи и обычной не дает только кандидатов на Бандита, а также непонятно, выявляет ли это сравнение всех кандидатов на попадание под действие Бандита.

Попарное сравнение

Проведём попарное сравнение для кандидатов, перечисленных выше. Добавим в перечень ещё несколько сайтов из ТОП-20, которые кажутся кандидатами «по прыжкам в выдаче»:
  • http://dostavka-stroymaterialov.ru/
  • http://www.RDStroy.ru/
  • http://zergud.ru/
  • http://stroy-gin.ru/
  • http://tdRemont.ru/
  • http://www.andreevstroy.ru/
  • https://StroiMaterialy-deshevo.ru/
  • http://www.pilomateriali.ru/
  • http://www.lesobaza.ru/
  • http://severlesmarket.ru/
  • http://les-snab.ru/
  • http://severderevo.ru/
  • http://sbitsnab.ru/
  • http://www.opmplus.ru/
Напомним, что Бандит в итоге пересчитывается в реальную релевантность, поэтому если сейчас при попарном сравнении мы не видим, что сайт должен быть ниже, – не означает, что когда-то в прошлом (месяц-два назад) он не был подкинут Бандитом. Кандидаты на звание подкинутых Бандитом (разбирательство, почему местами не совпадает XML и выдача, оставим за скобкой): http://stroy-gin.ru/

http://tdRemont.ru/

По паттерну поведения – вполне похоже. Что касается http://www.RDStroy.ru/, то ранее предполагалось, что он находится в ТОПе за счет Бандита, т.к. у него – низкая текстовая релевантность (нет сохраненной копии). Но появление текста в индексе (18/03/2016) никак не сказалось на ранжировании. То есть нахождение в ТОПе ранее вряд ли можно считать артефактом, связанным именно с добавочной релевантностью от Бандита (но артефактом его, всё же, считать стоит). Куда «пропадал» этот сайт аж на 3 месяца – большой вопрос.

Видно, что плюс-минус 1 позиция совпадают все сайты, кроме: http://severderevo.ru/

http://www.opmplus.ru/
Но 2 более чем вероятных кандидата - http://sbitsnab.ru/ и http://les-snab.ru/ - не подтвердились. Вывод: попарным сравнением пользоваться можно, т.к. оно «подтверждает» кандидатов на Бандита, остальные либо уже пересчитали релевантность, либо Бандит тут ни при чём (что требует отдельного анализа). Что касается сравнения выдачи в разных браузерах, IP и пр., то это не должно быть связанно с Бандитом. Как вариант, можно делать постоянные замеры одной и той же выдачи (2 раза в сутки), тогда есть шанс кого-то отловить. Для попарного сравнения кажется более надежным использовать XML.

4. Что происходит в динамике?

На выкладке, представленной, выше все данные снимались на 19/03/2016. Посмотрим, что поменялось на 22/03/2016. Вот, кто сильно понизил позицию из старых ТОП-20: Колонки:
  • позиция была
  • документ
  • позиция стала
  • разница
Как мы помним, http://stroy-gin.ru/ и http://tdRemont.ru/ были подкинуты Бандитом и должны были находиться примерно на этих местах. Для https://StroiMaterialy-deshevo.ru/ изменения ранее и сейчас - не столь значительны. Остальные сайты не проверялись. Проверим, какие места они должны занимать сейчас. Как видно, эти сайты сохранили свои позиции с незначительными колебаниями. Причем для подкинутых видны прыжки в основной выдаче. В результате, они практически вернулись на «свое» место. Возможно, мы видим такие качели по Бандиту, т.к. он с определённой периодичностью «включает» свою добавку и поэтому сайт скачет «туда-сюда». Так, например, уже 24/03/2016 stroy-gin.ru снова оказался в ТОП-10. Нужно отметить, что поменялся состав ТОП-100, с которым производится сравнение позиций. Поэтому место сайта по сравнению с ним и должно было измениться. Также было замечено, что:
  • Корректнее производить сравнение по url, а не site
  • Бывают непонятные скачки знака сравнения (было выше, стало ниже). Причём, не во всех браузерах. Этот аспект однако требует отдельных проверок.
Аналогичное сравнение проводим и для второго запроса. Колонки:
  • позиция была
  • документ
  • позиция стала
  • разница
http://severderevo.ru/ и http://www.opmplus.ru/ по итогам проверки оказались выше и должны были занимать примерно это место, а вот http://les-rub.ru/ просел еще ниже. Остальные не проверялись. Проверим, какие места они должны занимать сейчас. Видно, что moskva-snab.ru и lesorama.ru явно были подкинуты Бандитом (второй сайт на данный момент времени уже занимает примерно свое место). Часть заниженных сайтов – firma-elka.ru, lesmos.ru – вернулась 24/03/2016 на свои позиции. Что касается модифицированных запросов – видны достаточно странные скачки, когда место в выдаче не изменяется: Вывод: Завышенные или заниженные Бандитом сайты видно по-прежнему, но:
  1. Меняется состав ТОП-100, с которым сравниваем текущие позиции сайтов.
  2. Имеет смысл производить сравнение по URL.
  3. Отдельные пары ведут себя странно (меняют знак), причем в разных браузерах – по-разному.
  4. Возможно, стоит пользоваться только xml для сравнения.
Замечено, что какие-то подкинутые сайты возвращаются примерно на «свое» место. То есть, возможно добавочная релевантность работает бинарно – включили/отключили. Что касается модифицированного запроса, то сложно интерпретировать скачки его позиций.

5. В качестве резюме

На данный момент не похоже, что есть запрос, которым можно получить «очищенную» выдачу от Бандита. Выдача меняется часто, поэтому вкупе с различными персонализациями и тестами, анализировать её достаточно непросто. Запросы сравнения работают в целом корректно, но замечено, что они могут менять свой знак, как из-за разных браузеров, так и в рамках короткого времени (хотя, и не должны делать этого). Это еще более осложняет анализ. В последнее время замечено, что Бандит стал чаще понижать сайты, что является отдельной темой для исследования. Но сам шаг – не очень понятный со стороны Яндекса: одно дело «протестировать» годных кандидатов, а другое дело – намерено «топить», вроде как, хорошие документы. Хорошие –  т.к. на длительном периоде позиции документов не ухудшаются, несмотря на скачки вниз. Это уже, скорее, напоминает намеренно организованную игру в рулетку.
Добавить комментарий

Ваш комментарий будет опубликован после модерации без публичного указания вашего e-mail адреса. Обязательные поля помечены *