Регулярные выражения для Google Search Console

Содержание

Зачем и для чего?
Как с этим работать
Ограничения
Примеры использования
Часто используемые конструкции

Google Search Console – прекрасный инструмент для аналитики данных по проекту в поиске. Но есть одна особенность, которая сильно ограничивает в возможностях при работе с инструментом — просмотреть статистику можно только основываясь на 1000 самых популярных запросов или страниц. Для получения более детальной информации мы рекомендуем использовать GSC в связке с регулярными выражениями. С помощью регулярных выражений можно фильтровать большое количество данных и выбирать только те, которые соответствуют шаблону.

Зачем и для чего?

Возможность фильтровать запросы по условиям;
Возможность смотреть статистику по списку урлов с определенным критерием.

Какие задачи позволит решить?

Выявление проблем с индексацией;
Поиск возможных точек роста при анализе выборки запросов;
Оценка CTR по набору запросов или урлов.

Как с этим работать

С регулярными выражениями можно работать в 3 отчетах в разделе “Эффективность”:

Результаты поиска — здесь показываются данные непосредственно из поиска Google;

Google Discover (Рекомендации) – данные из приложения Google и браузера в телефоне;
Новости — статистика по показам сайта в мобильном приложении Google и с сайта news.google.com.

Интерфейс

Квадратом обозначены разделы, где можно работать с “регулярками”, стрелкой — поле, куда вбиваются регулярные выражения:

Ограничения

Нельзя использовать отрицание, так как в интерфейсе возможность получить результаты, НЕ соответствующие регулярному выражению, выведена отдельно:

Это накладывает свои ограничения, потому что невозможно использовать связки
(утверждение 1) И (отрицание утверждения 2);

Длина регулярного выражения не должна превышать 4096 символов.

Примеры использования

Поиск коммерческих запросов

| – ИЛИ — используется если нужно найти запросы, которые соответствуют одному или другому критерию. Например, можно ввести конструкцию купить|цена и в результате получить запросы как со словом “купить”, так и со словом “цена”:

Исключение нерелевантных запросов

[x-z] — группа символов. Используется, когда нужно указать группу символов. Например, необходимо исключить запросы, содержащие года 21 века. Можно использовать оператор ИЛИ и перечислить через знак | все года, начиная от 2000 до 2022, а можно использовать менее громоздкую конструкцию:

где в первых квадратных скобках мы указываем диапазон цифр от 0 до 2 включительно, а во втором — диапазон от 0 до 9.

Исключение информационных запросов

Пример регулярки для интернет-магазина строительного оборудования. Список стоп-слов вносится на основе анализа популярных ключевых слов проекта.

Просмотр статистики по определенной группе страниц

Представим, что нам нужно посмотреть статистику по всем товарам в категории “Тюльпаны”. Мы бы могли использовать фильтр “URL, содержащие”:

и в условие добавить алиас категории “tyulpany”, но проблема в том, что в разделе “Тюльпаны” у нас есть дочерние категории, например, “Тюльпаны многоцветковые”, которые соответствуют условию, но не нужны нам для статистики. Для этого мы ищем условие, под которое подходят все товары, но не подходят категории. В нашем проекте товар имеет в адресе id, состоящий из набора цифр количеством от 5 до 7. Пример: https://site.ru/catalog/tyulpany/mnogotsvetkovye/48345/. У нас получается следующая конструкция:

tyulpany.*\d{5,7}

Где tyulpany – алиас нужной категории; .* – любой набор символов, потому что товар может лежать в любой дочерней категории; \d{5,7} – где с помощью \d – указываем, что нужно искать цифру, в фигурных скобках количество, т.е. от 5 до 7 цифр подряд включительно. Для проверки поможет сайт https://regex101.com/. Вводим свою регулярку в поле REGULAR EXPRESSION, примеры урлов для проверки в TESTING STRING и видим, что условию соответствует нужная нам строка:

В блоке справа можно увидеть подробный разбор регулярного выражения и количество совпадений

Результат в GSC:

Если у вас есть определенный список урлов, по которому вы хотите посмотреть статистику, то можете воспользоваться таблицей. В указанные ячейки добавляется список адресов, а на выходе получаем готовое регулярное выражение для просмотра статистики по данной группе урлов.

Поиск страниц без слеша в конце урла

К примеру, у нас на сайте настроен редирект со страниц типа https://site.ru/catalog/nails на https://site.ru/catalog/nails/, но из-за особенностей CMS данная настройка может не работать для некоторых разделов. Также нам нужно исключить из результатов страницы, которые подходят под условие, но не нужны в статистике: файлы pdf (пример урла: https://site.ru/upload/filemanager/ukladkabrovei.pdf ) и страницы фильтрации (пример урла https://site.ru/shop/nails/gel-laki/page-16/?filter=1&sorting=). Итоговое выражение:

/$|pdf|\?

/$, где $ – символ окончания строки, а / — символ, которым (не)должен оканчиваться адрес сайта;
| – знак ИЛИ;
pdf — исключаем файлы pdf;
\? – исключаем страницы с фильтрацией, в адресе которых есть знак вопроса. Для того, чтобы сервис понимал, что это не часть синтаксиса регулярного выражения, а просто символ вопросительного знака, нам нужно экранировать символ, добавив перед ним обратный слеш \.

Добавляем эту конструкцию в фильтр с отрицанием (НЕ соответствует регулярному выражению)

Результат:

Исключение витальных запросов

К примеру, у магазина Имкосметик в статистике популярных запросов присутствует большое количество витальных запросов. К тому же, значительная часть пользователей пишет название по-своему: на латинице, кириллице и с ошибками. Пример запросов:

им косметика

инкосметик

im kosmetik

imcosmetic

имеосметик

ай эм косметик

Чтобы их исключить – используем такую конструкцию:

(^и[мн]|i[mn]|айм|айэм|ай\sэм)\s?([ек]осметик|[ck]osmeti[ck

Скобки () используются для группировки условий;
^ — объявляем, что далее будет идти условие, которое должно находиться в начале строки;
| — уже известный нам символ ИЛИ;
скобки [] используются для перечисления возможных символов. Сервис выберет один символ, присутствующий в скобках. В нашем случае для условия и[мн] подойдет как им, так и ин;

Важно! в квадратных скобках перечисляемые буквы должны указываться в алфавитном порядке. Если мы будем использовать конструкцию и[нм], то в результатах у нас будут только строки с им

\s — соответствует любому символу пробела;
? — означает, что предыдущее условие (\s) может встречаться 0 или 1 раз.

Для проверки можем использовать сервис https://regex101.com/:

Часто используемые конструкции

Любое количество символов .*;
Начало строки — ^. Пример ^спб; Результат:

Окончание строки — /$, где $ – символ окончания строки, а / — символ, которым должен оканчиваться адрес сайта;
Кириллица — [а-я];
Латиница — [a-z];
Любой одиночный символ — .;
Любая одна цифра — \d эквивалентно [0-9];
Знак пробела — \s;

С полным списком регулярных выражений и синтаксисом можно ознакомиться на странице https://github.com/google/re2/wiki/Syntax.