Технический SEO🤖

Robots.txt: как настроить правильно в 2026 и не закрыть сайт от Google

Полный разбор robots.txt: синтаксис директив, типичные ошибки, отличия Яндекса и Google, шаблоны для интернет-магазина, блога, лендинга. С готовыми примерами и проверкой онлайн.

SAКоманда SEOAdmin·2 мая 2026 г.·10 мин чтения

Что такое robots.txt и зачем он нужен

robots.txt — это текстовый файл в корне домена (/robots.txt), который говорит поисковым роботам, какие разделы сайта можно обходить, а какие — нельзя. Это первый файл, который Googlebot и YandexBot загружают, заходя на сайт.

Главная ошибка новичков — считать, что robots.txt «защищает» страницы. Это не так:

  • Это рекомендация, а не запрет. Соблюдают её только «приличные» роботы (Google, Яндекс, Bing). Парсеры и боты-скрейперы её игнорируют.
  • Страница, закрытая Disallow, может попасть в индекс по ссылкам с других сайтов — без сниппета, но с URL.
  • Чтобы реально убрать страницу из поиска, нужен мета-тег robots: noindex или HTTP-заголовок X-Robots-Tag — и страница не должна быть закрыта в robots.txt, иначе робот её не загрузит и не увидит noindex.

Зато robots.txt отлично подходит для:

  • управления краулинг-бюджетом (запретить обход бесполезных страниц);
  • блокировки тяжёлых разделов (поиск, фильтры, корзина);
  • указания пути к sitemap.xml.

Базовый синтаксис

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /search?
Sitemap: https://example.com/sitemap.xml

Разбор:

  • User-agent: * — правила для всех роботов. Можно задать персональные блоки: User-agent: Yandex, User-agent: Googlebot.
  • Disallow: /admin/ — запрет на обход /admin/ и всего ниже.
  • Allow: /admin/public/ — разрешение внутри запрета.
  • Sitemap: — абсолютный URL до карты сайта.

Важно: Яндекс читает блок User-agent: Yandex вместо общего *. Если хотите, чтобы общие правила тоже применялись — продублируйте их в Яндекс-блок. То же с Google.

Отличия Яндекса и Google

Директива Google Яндекс
Disallow
Allow
Sitemap
Host ✗ (игнорируется)
Clean-param ✓ (склейка URL с параметрами)
Crawl-delay ✓ (но Яндекс не рекомендует)

Clean-param — мощная штука для Яндекса: позволяет «склеить» страницы с UTM-метками, идентификаторами сессий и фильтрами в одну каноническую. Пример:

Clean-param: utm_source&utm_medium&utm_campaign&yclid&gclid

После этого Яндекс будет считать ?utm_source=fb и без параметра — одной страницей.

Типичные ошибки

1. Disallow: / после переноса со staging

Самая частая катастрофа: разработчик копирует robots.txt с тестового домена, где было Disallow: / (закрывали всё от индексации), на прод. Сайт за неделю выпадает из выдачи. Симптом — резкое падение трафика после деплоя.

Как проверить: онлайн-проверка robots.txt — мы покажем все директивы и подсветим красным, если сайт закрыт целиком.

2. Закрытие CSS и JS

В 2015 Google публично попросил не закрывать /css/, /js/ и /images/ — без них роботу не отрендерить страницу, и она ранжируется хуже. До сих пор встречается:

Disallow: /wp-includes/
Disallow: /wp-content/themes/

В современных версиях WordPress это уже не нужно. Откройте все статические ресурсы.

3. Дубль User-agent: * и User-agent: Yandex с разными правилами

Если правила для Яндекса не дублируют общие, у Яндекса будет своя картина. Часто из-за этого Яндекс индексирует то, что закрыто для Google, и наоборот.

4. Опечатка в директиве

Disalow: /admin/ — лишняя буква, директива игнорируется. Полезно прогонять robots.txt через валидаторы перед публикацией.

5. Отсутствует Sitemap

Без указания Sitemap: поисковик ищет карту сайта вслепую. Особенно критично для нового сайта без бэклинков.

Готовые шаблоны

Для WordPress блога

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /xmlrpc.php
Sitemap: https://example.com/sitemap.xml

User-agent: Yandex
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /?s=
Clean-param: utm_source&utm_medium&utm_campaign&yclid&gclid
Sitemap: https://example.com/sitemap.xml
Host: https://example.com

Для интернет-магазина

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /
Sitemap: https://example.com/sitemap.xml

User-agent: Yandex
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Clean-param: sort&filter&page&utm_source&utm_medium&utm_campaign&yclid&gclid
Sitemap: https://example.com/sitemap.xml
Host: https://example.com

Для лендинга

User-agent: *
Allow: /
Disallow: /thanks/
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

Что делать дальше

  1. Проверьте текущий robots.txt — откройте https://ваш-домен.ру/robots.txt. Если 404 — создайте файл, даже минимальный.
  2. Прогоните через нашу проверку robots.txt — увидите, какие страницы блокируются, есть ли проблемы.
  3. Сгенерируйте robots.txt для своего сайтаонлайн-генератор учитывает CMS, фильтры, кириллические URL.
  4. Сверьтесь с sitemap.xmlпроверка карты сайта. В robots.txt должен быть указан правильный путь.
  5. Через 7-14 дней загляните в Search Console / Вебмастер — увидите, как изменился краулинг и индексация.

Robots.txt — это «приветственная записка» поисковику. Чем точнее она написана, тем меньше робот тратит времени на мусор и тем быстрее находит ценные страницы.

🚀

Попробовать SEOAdmin бесплатно

30 SEO-инструментов в одном кабинете. 100 поинтов бесплатно при регистрации, без карты.

Читайте также