TL;DR
Crawl budget — количество страниц, которое поисковик готов обойти на вашем сайте за единицу времени. Важно для крупных сайтов (от 10 000 страниц). Экономится через закрытие дублей, фильтров, технических разделов; направляется на важное через sitemap, internal linking, обновление контента.
Что такое crawl budget
Crawl budget — внутренний лимит поисковика на обход вашего сайта. Зависит от:
- Crawl rate — сколько запросов в секунду сервер выдерживает без снижения скорости.
- Crawl demand — насколько контент важен и часто обновляется.
Для маленьких сайтов (< 1000 страниц) — не проблема. Для крупных — критическая.
Когда это важно
- Интернет-магазины с 10 000+ товарами.
- Агрегаторы и каталоги.
- Сайты с фильтрами, генерирующими URL.
- Новостные сайты с высокой публикационной активностью.
- Многоязычные сайты.
Как анализировать
Через логи сервера
Самый точный способ:
- Выгружаем access.log за месяц.
- Фильтруем по User-agent (YandexBot, Googlebot).
- Анализируем:
- Сколько раз обходится каждый URL.
- Какие URL получают больше обходов.
- Какие URL вообще не обходятся.
- Какие технические URL «съедают» бюджет.
Инструменты: Screaming Frog Log Analyzer, Splunk, ELK.
Через Search Console
«Settings → Crawl stats» — статистика обходов:
- Общее количество запросов.
- Размер скачиваемых данных.
- Время ответа сервера.
Через Яндекс.Вебмастер
«Индексирование → Статистика обхода» — показывает динамику.
Что съедает бюджет
1. Дубли
UTM, фильтры, сортировки, sessions — генерируют тысячи URL.
Решение: canonical, robots.txt, Clean-param.
2. Фасетная навигация
В крупных каталогах фильтры могут давать миллионы комбинаций.
Решение: SEF только для частотных запросов, остальное — closed.
3. Технические страницы
Корзина, личный кабинет, поиск, регистрация.
Решение: robots.txt + noindex.
4. Архивы и теги
В блогах архивы по дате, тегам — могут давать тонкий контент.
Решение: оставить только полезные, остальное noindex.
5. Бесконечный скролл
Если он генерирует ?page=1, ?page=2... ?page=999 — закрыть лишние.
6. Битые ссылки
5xx и долгие 4xx раздражают бота.
Решение: регулярный аудит, исправление.
7. Редиректы
Цепочки 3+ редиректов — баг.
Решение: один редирект на конечный URL.
8. Тяжёлые страницы
Если страница грузится 10 секунд, бот реже к ней возвращается.
Решение: оптимизация скорости.
Куда направлять бюджет
1. Sitemap
Только канонические, индексируемые, важные URL. Регулярное обновление lastmod.
2. Внутренние ссылки
Важные страницы получают больше внутренних ссылок = чаще обходятся.
3. Главная и хабы
Самые часто обходимые страницы. Размещайте на них ссылки на новые/важные материалы.
4. Свежий контент
Боты часто проверяют свежие публикации. Активный блог = частый бот.
5. RSS/Atom
Помогает быстрому обнаружению новых материалов. Особенно для новостных сайтов.
6. IndexNow
Активный пуш URL в поисковики. Поддерживается Яндексом и Bing.
Стратегия для крупных сайтов
- Аудит логов — понять, как обходит бот сейчас.
- Сегментация URL — критично важные / важные / опционально / закрыть.
- Технические правила — robots, canonical, noindex.
- Обновление sitemap — только канонические индексируемые.
- Перелинковка — направить вес на приоритетные.
- Мониторинг — раз в месяц.
Кейс: интернет-магазин 50 000 товаров
Было:
- 50 000 товаров.
- 100 000+ URL за счёт фильтров.
- Обходится 5000 URL/день.
- В индексе 30%.
Сделали:
- Закрыли неполезные фильтры (Disallow).
- Canonical для сортировок.
- Sitemap только с канонами.
- Удалили 8000 out-of-stock без редиректа → 301 на категории.
- Ускорили серверный ответ.
Стало:
- В обходе 50 000 нужных URL.
- В индексе 90%.
- Прирост трафика +60%.
Типичные ошибки
- Закрытие через robots без noindex. Страница уже в индексе → продолжает там жить.
- Игнорирование редиректов. Цепочки 5+ редиректов.
- Sitemap с 404 и 301. Сигнал «карта мусорная».
- Тысячи фильтров без приоритизации.
Заказать оптимизацию
В рамках технического аудита проанализирую crawl budget и подготовлю план оптимизации. Особенно эффективно для крупных каталогов.