Что такое robots.txt и зачем он нужен
robots.txt — это текстовый файл в корне домена (/robots.txt), который говорит поисковым роботам, какие разделы сайта можно обходить, а какие — нельзя. Это первый файл, который Googlebot и YandexBot загружают, заходя на сайт.
Главная ошибка новичков — считать, что robots.txt «защищает» страницы. Это не так:
- Это рекомендация, а не запрет. Соблюдают её только «приличные» роботы (Google, Яндекс, Bing). Парсеры и боты-скрейперы её игнорируют.
- Страница, закрытая
Disallow, может попасть в индекс по ссылкам с других сайтов — без сниппета, но с URL. - Чтобы реально убрать страницу из поиска, нужен мета-тег
robots: noindexили HTTP-заголовокX-Robots-Tag— и страница не должна быть закрыта в robots.txt, иначе робот её не загрузит и не увидит noindex.
Зато robots.txt отлично подходит для:
- управления краулинг-бюджетом (запретить обход бесполезных страниц);
- блокировки тяжёлых разделов (поиск, фильтры, корзина);
- указания пути к sitemap.xml.
Базовый синтаксис
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /search?
Sitemap: https://example.com/sitemap.xml
Разбор:
User-agent: *— правила для всех роботов. Можно задать персональные блоки:User-agent: Yandex,User-agent: Googlebot.Disallow: /admin/— запрет на обход /admin/ и всего ниже.Allow: /admin/public/— разрешение внутри запрета.Sitemap:— абсолютный URL до карты сайта.
Важно: Яндекс читает блок User-agent: Yandex вместо общего *. Если хотите, чтобы общие правила тоже применялись — продублируйте их в Яндекс-блок. То же с Google.
Отличия Яндекса и Google
| Директива | Яндекс | |
|---|---|---|
Disallow |
✓ | ✓ |
Allow |
✓ | ✓ |
Sitemap |
✓ | ✓ |
Host |
✗ (игнорируется) | ✓ |
Clean-param |
✗ | ✓ (склейка URL с параметрами) |
Crawl-delay |
✗ | ✓ (но Яндекс не рекомендует) |
Clean-param — мощная штука для Яндекса: позволяет «склеить» страницы с UTM-метками, идентификаторами сессий и фильтрами в одну каноническую. Пример:
Clean-param: utm_source&utm_medium&utm_campaign&yclid&gclid
После этого Яндекс будет считать ?utm_source=fb и без параметра — одной страницей.
Типичные ошибки
1. Disallow: / после переноса со staging
Самая частая катастрофа: разработчик копирует robots.txt с тестового домена, где было Disallow: / (закрывали всё от индексации), на прод. Сайт за неделю выпадает из выдачи. Симптом — резкое падение трафика после деплоя.
Как проверить: онлайн-проверка robots.txt — мы покажем все директивы и подсветим красным, если сайт закрыт целиком.
2. Закрытие CSS и JS
В 2015 Google публично попросил не закрывать /css/, /js/ и /images/ — без них роботу не отрендерить страницу, и она ранжируется хуже. До сих пор встречается:
Disallow: /wp-includes/
Disallow: /wp-content/themes/
В современных версиях WordPress это уже не нужно. Откройте все статические ресурсы.
3. Дубль User-agent: * и User-agent: Yandex с разными правилами
Если правила для Яндекса не дублируют общие, у Яндекса будет своя картина. Часто из-за этого Яндекс индексирует то, что закрыто для Google, и наоборот.
4. Опечатка в директиве
Disalow: /admin/ — лишняя буква, директива игнорируется. Полезно прогонять robots.txt через валидаторы перед публикацией.
5. Отсутствует Sitemap
Без указания Sitemap: поисковик ищет карту сайта вслепую. Особенно критично для нового сайта без бэклинков.
Готовые шаблоны
Для WordPress блога
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /xmlrpc.php
Sitemap: https://example.com/sitemap.xml
User-agent: Yandex
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /?s=
Clean-param: utm_source&utm_medium&utm_campaign&yclid&gclid
Sitemap: https://example.com/sitemap.xml
Host: https://example.com
Для интернет-магазина
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /
Sitemap: https://example.com/sitemap.xml
User-agent: Yandex
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Clean-param: sort&filter&page&utm_source&utm_medium&utm_campaign&yclid&gclid
Sitemap: https://example.com/sitemap.xml
Host: https://example.com
Для лендинга
User-agent: *
Allow: /
Disallow: /thanks/
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
Что делать дальше
- Проверьте текущий robots.txt — откройте
https://ваш-домен.ру/robots.txt. Если 404 — создайте файл, даже минимальный. - Прогоните через нашу проверку robots.txt — увидите, какие страницы блокируются, есть ли проблемы.
- Сгенерируйте robots.txt для своего сайта — онлайн-генератор учитывает CMS, фильтры, кириллические URL.
- Сверьтесь с sitemap.xml — проверка карты сайта. В robots.txt должен быть указан правильный путь.
- Через 7-14 дней загляните в Search Console / Вебмастер — увидите, как изменился краулинг и индексация.
Robots.txt — это «приветственная записка» поисковику. Чем точнее она написана, тем меньше робот тратит времени на мусор и тем быстрее находит ценные страницы.
Попробовать SEOAdmin бесплатно
30 SEO-инструментов в одном кабинете. 100 поинтов бесплатно при регистрации, без карты.

