Технический SEO

Crawl budget — как оптимизировать обход бота на крупных сайтах

TL;DR

Crawl budget — количество страниц, которое поисковик готов обойти на вашем сайте за единицу времени. Важно для крупных сайтов (от 10 000 страниц). Экономится через закрытие дублей, фильтров, технических разделов; направляется на важное через sitemap, internal linking, обновление контента.

Что такое crawl budget

Crawl budget — внутренний лимит поисковика на обход вашего сайта. Зависит от:

  • Crawl rate — сколько запросов в секунду сервер выдерживает без снижения скорости.
  • Crawl demand — насколько контент важен и часто обновляется.

Для маленьких сайтов (< 1000 страниц) — не проблема. Для крупных — критическая.

Когда это важно

  • Интернет-магазины с 10 000+ товарами.
  • Агрегаторы и каталоги.
  • Сайты с фильтрами, генерирующими URL.
  • Новостные сайты с высокой публикационной активностью.
  • Многоязычные сайты.

Как анализировать

Через логи сервера

Самый точный способ:

  1. Выгружаем access.log за месяц.
  2. Фильтруем по User-agent (YandexBot, Googlebot).
  3. Анализируем:
    • Сколько раз обходится каждый URL.
    • Какие URL получают больше обходов.
    • Какие URL вообще не обходятся.
    • Какие технические URL «съедают» бюджет.

Инструменты: Screaming Frog Log Analyzer, Splunk, ELK.

Через Search Console

«Settings → Crawl stats» — статистика обходов:

  • Общее количество запросов.
  • Размер скачиваемых данных.
  • Время ответа сервера.

Через Яндекс.Вебмастер

«Индексирование → Статистика обхода» — показывает динамику.

Что съедает бюджет

1. Дубли

UTM, фильтры, сортировки, sessions — генерируют тысячи URL.

Решение: canonical, robots.txt, Clean-param.

2. Фасетная навигация

В крупных каталогах фильтры могут давать миллионы комбинаций.

Решение: SEF только для частотных запросов, остальное — closed.

3. Технические страницы

Корзина, личный кабинет, поиск, регистрация.

Решение: robots.txt + noindex.

4. Архивы и теги

В блогах архивы по дате, тегам — могут давать тонкий контент.

Решение: оставить только полезные, остальное noindex.

5. Бесконечный скролл

Если он генерирует ?page=1, ?page=2... ?page=999 — закрыть лишние.

6. Битые ссылки

5xx и долгие 4xx раздражают бота.

Решение: регулярный аудит, исправление.

7. Редиректы

Цепочки 3+ редиректов — баг.

Решение: один редирект на конечный URL.

8. Тяжёлые страницы

Если страница грузится 10 секунд, бот реже к ней возвращается.

Решение: оптимизация скорости.

Куда направлять бюджет

1. Sitemap

Только канонические, индексируемые, важные URL. Регулярное обновление lastmod.

2. Внутренние ссылки

Важные страницы получают больше внутренних ссылок = чаще обходятся.

3. Главная и хабы

Самые часто обходимые страницы. Размещайте на них ссылки на новые/важные материалы.

4. Свежий контент

Боты часто проверяют свежие публикации. Активный блог = частый бот.

5. RSS/Atom

Помогает быстрому обнаружению новых материалов. Особенно для новостных сайтов.

6. IndexNow

Активный пуш URL в поисковики. Поддерживается Яндексом и Bing.

Стратегия для крупных сайтов

  1. Аудит логов — понять, как обходит бот сейчас.
  2. Сегментация URL — критично важные / важные / опционально / закрыть.
  3. Технические правила — robots, canonical, noindex.
  4. Обновление sitemap — только канонические индексируемые.
  5. Перелинковка — направить вес на приоритетные.
  6. Мониторинг — раз в месяц.

Кейс: интернет-магазин 50 000 товаров

Было:

  • 50 000 товаров.
  • 100 000+ URL за счёт фильтров.
  • Обходится 5000 URL/день.
  • В индексе 30%.

Сделали:

  • Закрыли неполезные фильтры (Disallow).
  • Canonical для сортировок.
  • Sitemap только с канонами.
  • Удалили 8000 out-of-stock без редиректа → 301 на категории.
  • Ускорили серверный ответ.

Стало:

  • В обходе 50 000 нужных URL.
  • В индексе 90%.
  • Прирост трафика +60%.

Типичные ошибки

  1. Закрытие через robots без noindex. Страница уже в индексе → продолжает там жить.
  2. Игнорирование редиректов. Цепочки 5+ редиректов.
  3. Sitemap с 404 и 301. Сигнал «карта мусорная».
  4. Тысячи фильтров без приоритизации.

Заказать оптимизацию

В рамках технического аудита проанализирую crawl budget и подготовлю план оптимизации. Особенно эффективно для крупных каталогов.

crawl budget индексация крупный сайт

Нужна помощь по этой теме?

Закажите аудит сайта или часовую консультацию — разберём вашу ситуацию лично.

Написать в Telegram Оставить заявку

Похожие статьи

Технический SEO
Ускорение сайта — пошаговое руководство к зелёной зоне
Как ускорить сайт до зелёной зоны Core Web Vitals: изображения, JS, CSS, кэш, CDN, шрифты. Личный опыт оптимизации с примерами кода и инструментами.
Читать
Технический SEO
Чек-лист SEO-миграции сайта: 47 пунктов до и после переезда
Чек-лист SEO-миграции сайта: 47 пунктов до и после переезда без потери трафика. Личный опыт переноса: редиректы, мониторинг, типичные ошибки.
Читать
Технический SEO
301 и 302 редиректы — всё, что нужно знать
301 vs 302 редиректы: чем отличаются, когда использовать. Разбор от практика: настройка через .htaccess и nginx, переезд без потери позиций. С примерами.
Читать
Технический SEO
Mobile-First SEO — оптимизация под мобильный поиск
Mobile-First Indexing в Google и Яндексе. Личный опыт частного SEO: адаптивный дизайн, скорость, юзабилити, попапы. Чек-лист мобильной оптимизации сайта.
Читать

Есть вопрос по теме статьи?

Если статья не закрыла вопрос — напишите в Telegram с деталями вашего сайта. Отвечу лично, без менеджеров и форм.

Написать в Telegram Заказать SEO-аудит