Содержание
Сегодня в среде специалистов актуален вопрос, как более простым способом идентифицировать результаты работы Бандита в выдаче. Недавно Сергей Людкевич на сайте searchengines поднял данную проблематику и предложил комбинации с неранжирующим И «<<»: «запрос << (lang:ru | lang:en)» или «запрос << lang:ru» «запрос << date:<20170101».
Это было бы действительно интересно, т.к. если разбирать ситуацию, используя метод попарного сравнения, то можно лишь проводить проверку уже выявленных кандидатов. Также дополнительно рассмотрим корректно ли работает попарное сравнение в выдаче.
Попробуем разобраться в правильности гипотезы. Все данные ниже представлены в двух временных точках: 19 марта и 22 марта (+ 24 марта – отдельные документы).
Данные собирались как по XML, так и по выдаче.
1. Про «не ранжирующие И»
Выдачи «запрос << date:<20170101» и «запрос << lang:ru» в целом похожи, а вот «запрос << (lang:ru | lang:en)» иногда дает сильно отличающиеся изменения (3-я колонка).
Колонки:
- запрос
- место сейчас
- документ
- место «модифицированный дата»
- разница с текущим состоянием
- место «модифицированный lang:ru»
- разница с текущим состоянием
- место «модифицированный lang:ru | lang:en»
- разница с текущим состоянием
И прочие.
Выберем пока в качестве модификации запрос с датой.
На примерах запросов «стройматериалы» и «пиломатериалы» по ТОП-100 имеем следующую картину:
- ТОП-10 по составу сохраняется на 70% и 60%.
- ТОП-10 по точной позиции сохраняется на 10% и 10%.
- ТОП-10 по +/- 1 сохраняется на 30%.
Порядок меняется достаточно значимо.
Вывод: поскольку выдача меняется значимо (70-90%), то стоит рассмотреть только наиболее сильные изменения модифицированной выдачи к обычной как возможных кандидатов.
2. Корреляция сильно вылетевших с Бандитом
Возьмем сайты из ТОП-10, которые упали от 10 позиций при модифицированном запросе.
Колонки:
- запрос
- место сейчас
- документ
- место «модифицированный дата»
Разница с текущим состоянием
http://dostavka-stroymaterialov.ru/ – находится в ТОП-10 около года (ниже – с 05/2015 по 18/03/2016)
Сложно отнести к Бандиту.
http://www.RDStroy.ru/ – вылетал и появлялся, хотя изначально (до ввода Бандита был в ТОП-20)
Кандидат на проверку.
http://www.pilomateriali.ru/ – находится в ТОП-10 около года, причем как правило в ТОП-1.
Практически невозможно отнести к Бандиту.
http://www.lesobaza.ru/ – вылетал и появлялся, изначально был в ТОП-20.
Кандидат на проверку.
https://ru.wikipedia.org/ – больше похоже на потребность в Википедии.
Сложно отнести к Бандиту.
Также замечено, что многие сайты, которые по поведению вполне могли бы быть кандидатами, – не выявляются при таком подходе.
Например, колонки:
- запрос
- место сейчас
- документ
- место «модифицированный дата»
- разница с текущим состоянием
http://sbitsnab.ru/
http://les-snab.ru/
Вывод: сравнение модифицированной выдачи и обычной не дает только кандидатов на Бандита, а также непонятно, выявляет ли это сравнение всех кандидатов на попадание под действие Бандита.
3. Попарное сравнение
Проведём попарное сравнение для кандидатов, перечисленных выше. Добавим в перечень ещё несколько сайтов из ТОП-20, которые кажутся кандидатами «по прыжкам в выдаче»:
- http://dostavka-stroymaterialov.ru/
- http://www.RDStroy.ru/
- http://zergud.ru/
- http://stroy-gin.ru/
- http://tdRemont.ru/
- http://www.andreevstroy.ru/
- https://StroiMaterialy-deshevo.ru/
- http://www.pilomateriali.ru/
- http://www.lesobaza.ru/
- http://severlesmarket.ru/
- http://les-snab.ru/
- http://severderevo.ru/
- http://sbitsnab.ru/
- http://www.opmplus.ru/
Напомним, что Бандит в итоге пересчитывается в реальную релевантность, поэтому если сейчас при попарном сравнении мы не видим, что сайт должен быть ниже, – не означает, что когда-то в прошлом (месяц-два назад) он не был подкинут Бандитом.
Кандидаты на звание подкинутых Бандитом (разбирательство, почему местами не совпадает XML и выдача, оставим за скобкой):
http://stroy-gin.ru/
http://tdRemont.ru/
По паттерну поведения – вполне похоже.
Что касается http://www.RDStroy.ru/, то ранее предполагалось, что он находится в ТОПе за счет Бандита, т.к. у него – низкая текстовая релевантность (нет сохраненной копии). Но появление текста в индексе (18/03/2016) никак не сказалось на ранжировании. То есть нахождение в ТОПе ранее вряд ли можно считать артефактом, связанным именно с добавочной релевантностью от Бандита (но артефактом его, всё же, считать стоит).
Куда «пропадал» этот сайт аж на 3 месяца – большой вопрос.
Видно, что плюс-минус 1 позиция совпадают все сайты, кроме:
http://severderevo.ru/
http://www.opmplus.ru/
Но 2 более чем вероятных кандидата – http://sbitsnab.ru/ и http://les-snab.ru/ – не подтвердились.
Вывод: попарным сравнением пользоваться можно, т.к. оно «подтверждает» кандидатов на Бандита, остальные либо уже пересчитали релевантность, либо Бандит тут ни при чём (что требует отдельного анализа).
Что касается сравнения выдачи в разных браузерах, IP и пр., то это не должно быть связанно с Бандитом. Как вариант, можно делать постоянные замеры одной и той же выдачи (2 раза в сутки), тогда есть шанс кого-то отловить.
Для попарного сравнения кажется более надежным использовать XML.
4. Что происходит в динамике?
На выкладке, представленной, выше все данные снимались на 19/03/2016. Посмотрим, что поменялось на 22/03/2016.
Вот, кто сильно понизил позицию из старых ТОП-20:
Колонки:
- позиция была
- документ
- позиция стала
- разница
Как мы помним, http://stroy-gin.ru/ и http://tdRemont.ru/ были подкинуты Бандитом и должны были находиться примерно на этих местах. Для https://StroiMaterialy-deshevo.ru/ изменения ранее и сейчас – не столь значительны. Остальные сайты не проверялись.
Проверим, какие места они должны занимать сейчас.
Как видно, эти сайты сохранили свои позиции с незначительными колебаниями. Причем для подкинутых видны прыжки в основной выдаче. В результате, они практически вернулись на «свое» место.
Возможно, мы видим такие качели по Бандиту, т.к. он с определённой периодичностью «включает» свою добавку и поэтому сайт скачет «туда-сюда». Так, например, уже 24/03/2016 stroy-gin.ru снова оказался в ТОП-10.
Нужно отметить, что поменялся состав ТОП-100, с которым производится сравнение позиций. Поэтому место сайта по сравнению с ним и должно было измениться.
Также было замечено, что:
- Корректнее производить сравнение по url, а не site
- Бывают непонятные скачки знака сравнения (было выше, стало ниже). Причём, не во всех браузерах. Этот аспект однако требует отдельных проверок.
Аналогичное сравнение проводим и для второго запроса.
Колонки:
- позиция была
- документ
- позиция стала
- разница
http://severderevo.ru/ и http://www.opmplus.ru/ по итогам проверки оказались выше и должны были занимать примерно это место, а вот http://les-rub.ru/ просел еще ниже. Остальные не проверялись.
Проверим, какие места они должны занимать сейчас.
Видно, что moskva-snab.ru и lesorama.ru явно были подкинуты Бандитом (второй сайт на данный момент времени уже занимает примерно свое место). Часть заниженных сайтов – firma-elka.ru, lesmos.ru – вернулась 24/03/2016 на свои позиции.
Что касается модифицированных запросов – видны достаточно странные скачки, когда место в выдаче не изменяется:
Вывод: Завышенные или заниженные Бандитом сайты видно по-прежнему, но:
- Меняется состав ТОП-100, с которым сравниваем текущие позиции сайтов.
- Имеет смысл производить сравнение по URL.
- Отдельные пары ведут себя странно (меняют знак), причем в разных браузерах – по-разному.
- Возможно, стоит пользоваться только xml для сравнения.
Замечено, что какие-то подкинутые сайты возвращаются примерно на «свое» место. То есть, возможно добавочная релевантность работает бинарно – включили/отключили.
Что касается модифицированного запроса, то сложно интерпретировать скачки его позиций.
5. В качестве резюме
На данный момент не похоже, что есть запрос, которым можно получить «очищенную» выдачу от Бандита.
Выдача меняется часто, поэтому вкупе с различными персонализациями и тестами, анализировать её достаточно непросто.
Запросы сравнения работают в целом корректно, но замечено, что они могут менять свой знак, как из-за разных браузеров, так и в рамках короткого времени (хотя, и не должны делать этого). Это еще более осложняет анализ.
В последнее время замечено, что Бандит стал чаще понижать сайты, что является отдельной темой для исследования. Но сам шаг – не очень понятный со стороны Яндекса: одно дело «протестировать» годных кандидатов, а другое дело – намерено «топить», вроде как, хорошие документы. Хорошие – т.к. на длительном периоде позиции документов не ухудшаются, несмотря на скачки вниз. Это уже, скорее, напоминает намеренно организованную игру в рулетку.