Технический SEO

Правильный robots.txt — примеры и типичные ошибки

TL;DR

robots.txt — текстовый файл в корне сайта, управляющий обходом поисковыми ботами. Главное правило: закрывайте только то, что точно не должно индексироваться. По умолчанию должен быть открыт весь полезный контент. Sitemap указывается обязательно.

Базовая структура

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /

Sitemap: https://example.com/sitemap.xml

Основные директивы

  • User-agent — для какого бота правило. * — все.
  • Disallow — запрет.
  • Allow — разрешение (приоритет над Disallow).
  • Sitemap — путь к карте сайта.
  • Clean-param (только Яндекс) — параметры для очистки URL.
  • Host — устаревшая, больше не нужна с 2018.

Что закрывать

Стандартные блоки:

  • /admin/, /wp-admin/, /bitrix/admin/ — админка.
  • /cgi-bin/, /tmp/ — служебные.
  • /cart/, /checkout/, /personal/ — корзина и личный кабинет.
  • *?utm_*, *?yclid=* — UTM-метки (для Google).
  • /search/, *?s=* — внутренний поиск.
  • *.pdf (если PDF не нужны в индексе).

Что НЕ закрывать

Типичные ошибки:

  • Disallow: / — закрывает весь сайт.
  • Disallow: /css/, /js/, /images/ — Google и Яндекс должны видеть стили и скрипты для рендеринга.
  • Disallow: /catalog/ — закрытие основной структуры.
  • Закрытие страниц фильтров без разбора (часть может быть полезной для SEO).

Clean-param для Яндекса

Для Яндекса лучше использовать Clean-param вместо Disallow для UTM:

Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term
Clean-param: gclid&yclid&fbclid&ymclid

Это позволяет ботам обходить страницы, но склеивать их с канонической версией.

Готовые примеры

WordPress

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/

Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term

Sitemap: https://example.com/sitemap.xml

Bitrix

User-agent: *
Disallow: /bitrix/
Disallow: /upload/
Disallow: /local/
Disallow: /personal/
Disallow: /auth/
Disallow: /search/
Disallow: /*?action=
Disallow: /*?print=
Disallow: /*?login=
Disallow: /*?register=
Disallow: /*BITRIX_*=
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/

Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term

Sitemap: https://example.com/sitemap.xml

OpenCart

User-agent: *
Disallow: /admin/
Disallow: /catalog/
Disallow: /system/
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?limit=

Clean-param: utm_source&utm_medium&utm_campaign

Sitemap: https://example.com/sitemap.xml

Раздельные правила для разных ботов

Если нужно по-разному управлять Яндексом и Google:

User-agent: Yandex
Disallow: /admin/
Clean-param: utm_source&utm_medium

User-agent: Googlebot
Disallow: /admin/
Disallow: /*?utm_source=

User-agent: *
Disallow: /admin/

Закрытие плохих ботов

Для блокировки парсеров и спамеров:

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

Учтите: «вежливые» боты подчиняются, агрессивные — игнорируют. Для последних нужен фаервол / Cloudflare.

Типичные ошибки

  1. Полная блокировка сайта. Disallow: / — самая страшная ошибка.
  2. Закрытие CSS/JS/изображений. Гугл-бот не сможет рендерить страницы.
  3. Конфликтующие правила. Allow и Disallow для одного пути.
  4. Использование комментариев в неправильном месте.
  5. Неверный регистр. robots.txt чувствителен к регистру в путях.
  6. Использование robots.txt для скрытия конфиденциального. Файл публичен — его читают все.

Проверка

  • Яндекс.Вебмастер → Анализ robots.txt.
  • Google Search Console → Removals → urlinspection.
  • Сторонние: TechnicalSEO Robots Tester.

Заказать настройку

Помогу составить корректный robots.txt и проверить индексацию. Технический аудит — от 25 000 ₽.

robots.txt индексация

Нужна помощь по этой теме?

Закажите аудит сайта или часовую консультацию — разберём вашу ситуацию лично.

Написать в Telegram Оставить заявку

Похожие статьи

Технический SEO
Ускорение сайта — пошаговое руководство к зелёной зоне
Как ускорить сайт до зелёной зоны Core Web Vitals: изображения, JS, CSS, кэш, CDN, шрифты. Личный опыт оптимизации с примерами кода и инструментами.
Читать
Технический SEO
Чек-лист SEO-миграции сайта: 47 пунктов до и после переезда
Чек-лист SEO-миграции сайта: 47 пунктов до и после переезда без потери трафика. Личный опыт переноса: редиректы, мониторинг, типичные ошибки.
Читать
Технический SEO
301 и 302 редиректы — всё, что нужно знать
301 vs 302 редиректы: чем отличаются, когда использовать. Разбор от практика: настройка через .htaccess и nginx, переезд без потери позиций. С примерами.
Читать
Технический SEO
Crawl budget — как оптимизировать обход бота на крупных сайтах
Что такое crawl budget и как экономить его на крупных сайтах. Разбор от практика: анализ логов, sitemap, robots, internal linking. Для сайтов 10 000+ страниц.
Читать

Есть вопрос по теме статьи?

Если статья не закрыла вопрос — напишите в Telegram с деталями вашего сайта. Отвечу лично, без менеджеров и форм.

Написать в Telegram Заказать SEO-аудит