Что такое Robots.txt?
Служебный файл в корне сайта, который указывает поисковым роботам, какие разделы можно или нельзя сканировать.
Robots.txt — текстовый файл, размещаемый в корневом каталоге сайта (например, https://example.com/robots.txt), который передаёт поисковым роботам инструкции о том, какие страницы и разделы разрешено сканировать, а какие следует пропустить. Файл работает по протоколу исключения роботов (Robots Exclusion Protocol) и поддерживается всеми крупными поисковиками — Google, Яндекс, Bing и другими.
Важно понимать: robots.txt не является механизмом защиты контента и не запрещает индексирование в буквальном смысле. Он лишь даёт рекомендацию роботу не заходить на указанный URL. Если на закрытую страницу ведут внешние ссылки, поисковик может всё равно включить её в индекс — просто без содержимого. Для надёжного исключения страниц из выдачи используют мета-тег noindex или директиву X-Robots-Tag.
Как устроен файл и что в нём можно указать
Файл состоит из блоков, каждый из которых начинается с директивы User-agent, обозначающей конкретного робота (например, Googlebot, Yandex или универсальный символ *). За ней следуют директивы Disallow — пути, закрытые для сканирования, и Allow — явные исключения из запретов. Помимо этого, в файл принято включать строку Sitemap с URL карты сайта: это помогает роботу быстрее обнаружить все страницы.
Пример минимальной записи: User-agent: * с Disallow: /admin/ закрывает административный раздел от всех роботов. Яндекс дополнительно поддерживает директиву Clean-param, которая позволяет указать, какие GET-параметры не меняют содержимое страницы и могут игнорироваться при сканировании, — это удобно для фильтров интернет-магазинов.
Влияние на SEO и краулинговый бюджет
Поисковые роботы тратят на обход сайта ограниченный ресурс, который называют краулинговым бюджетом. Чем больше страниц, тем важнее грамотно расставить приоритеты. Если закрыть в robots.txt дублирующиеся страницы, служебные URL (корзина, личный кабинет, страницы сортировки), поисковый робот быстрее обойдёт полезный контент и реже создаёт нагрузку на сервер.
Однако ошибки в файле дорого обходятся. Закрытый раздел с robots.txt не получит ссылочный вес из других страниц сайта — внутренние ссылки туда всё равно существуют, но робот их не проходит. Особенно критична ситуация, когда случайно закрывается весь сайт строкой Disallow: /. Такая ошибка моментально обнаруживается в Google Search Console и Яндекс Вебмастере во вкладке диагностики сканирования.
Типичные ошибки при работе с robots.txt
Первая и самая распространённая ошибка — закрыть CSS и JavaScript файлы. Раньше это считалось нормой, сегодня оба поисковика настоятельно рекомендуют открыть ресурсы для рендеринга, иначе робот не увидит страницу так же, как её видит пользователь, и может занизить оценку качества.
Вторая частая проблема — конфликт robots.txt с мета-тегами. Если страница закрыта через Disallow, но открыта для индексирования через meta name=robots content=index, поисковик не будет сканировать содержимое и не увидит тег noindex — в итоге страница может попасть в индекс вопреки намерениям. Проверять корректность директив удобно через инструмент тестирования robots.txt в Google Search Console и аналогичный раздел в Яндекс Вебмастере.
Частые вопросы
Чем robots.txt отличается от мета-тега noindex?
Robots.txt управляет сканированием: он говорит роботу, заходить на страницу или нет. Мета-тег noindex управляет индексированием: он разрешает роботу зайти и прочитать страницу, но запрещает добавлять её в поисковую выдачу. Для надёжного исключения страницы из индекса используют именно noindex, а не запрет в robots.txt.
Влияет ли robots.txt на ранжирование сайта?
Напрямую нет, но косвенно — да. Грамотно настроенный файл помогает поисковому роботу тратить краулинговый бюджет на важные страницы, а не на дубли и служебные разделы. Это ускоряет индексирование нового контента и снижает риск попадания мусорных URL в выдачу.
Как проверить, правильно ли настроен robots.txt?
Используйте инструмент проверки robots.txt в Google Search Console (раздел «Сканирование» → «Средство проверки robots.txt») и аналогичный раздел в Яндекс Вебмастере. Оба сервиса показывают, закрыты ли конкретные URL, и выводят предупреждения об ошибках в синтаксисе файла.
Обязателен ли файл robots.txt для каждого сайта?
Технически нет — без этого файла роботы просто сканируют весь сайт. Однако отсутствие robots.txt означает отсутствие любых инструкций для краулеров, что для большинства сайтов нежелательно: без него нельзя ограничить сканирование дублей, служебных страниц или чувствительных разделов.
Технический аудит сайта
Найдём и устраним технические ошибки, которые мешают росту позиций.
Помогаю бизнесу расти за счёт SEO, рекламы и продвижения в AI-поиске. Если нужно не просто понять термин, а применить его и получить заявки — расскажу, как это сделать в вашей нише.