Настройка файла robots.txt: полное руководство - Блог Smornov.Marketing

Приветствую вас, друзья!

Ранее мы уже обсуждали на страницах этого блога такую важную для SEO тему, как индексация сайта и способы ее ускорения. Более подробно ознакомиться с ней вы можете здесь.

Сегодня мы продолжим говорить на эту тему, но рассмотрим ее с точки зрения управления процессом индексирования, а именно: как разрешить или запретить попадание в индекс определенных страниц.

Я расскажу вам, что такое файл robots.txt, почему он так важен для индексации сайта и для SEO в целом и как его правильно настроить.

Для лучшего понимания ситуации, стоит обратиться к истории:

в прошлом, когда поисковые системы только начинали развиваться и значительно отличались от современных, поисковые роботы автоматически сканировали все доступные страницы сайтов. В результате в индекс попадала служебная информация, личные данные и другие ненужные материалы, которые не должны отображаться в поисковой выдаче. Неконтролируемая индексация всего подряд приводила к нерелевантным результатам поиска, что снижало эффективность поисковой системы.

Нужно было каким-то образом повлиять на этот процесс и “подсказать” роботам, какие страницы не нужно индексировать. Для этих целей и был придуман файл robots.txt.

Что такое robots.txt?

Итак, robots.txt представляет собой простой текстовый файл, который содержит инструкции (директивы) для краулеров о том, каким образом им нужно индексировать сайт.

Когда краулер хочет просканировать сайт, он сначала отправляет запрос на сервер сайта, чтобы получить robots.txt. Файл роботс должен находиться в корневой папке вашего веб-сайта (обычно по адресу https://www.example.com/robots.txt) и быть общедоступным для чтения роботами ПС.

По умолчанию поисковые системы полагают, что могут сканировать и индексировать абсолютно любую страницу на вашем сайте, если это не запрещено специальной директивой в robots.txt.

В случае, если вам есть что, “прятать” от индексации на вашем сайте - robots.txt вам просто необходим.

Здесь также хочу отметить, что не всегда краулеры следуют инструкциям в файле. Роботы Яндекса и Гугла придерживаются указаний в директивах, но роботы других ПС могут их игнорировать.

Основные директивы и синтаксис robots.txt

Создание файла роботс не требует особых знаний или навыков. Вам просто нужно создать текстовый файл с именем robots.txt и сохранить его в корневой директории вашего сайта. Вы можете использовать любой текстовый редактор, такой как Notepad++ и другие подобные ему.

Пример структуры файла robots.txt для сайта gismeteo.ru

Рассмотрим основные директивы файла robots.txt и какие функции они выполняют:

User-agent

Директива User-agent служит для определения правил индексации для конкретных роботов поисковых систем. Она позволяет вам указать, каким роботам разрешено или запрещено сканировать ваш сайт.

User-agent имеет следующий синтаксис:

User-agent: Имя_робота

Имя_робота – это строка, которая идентифицирует робота поисковой системы.

Для каждой поисковой системы есть собственное имя робота:

Yandex - для Яндекса,

Googlbot - для Google,

* - для всех роботов

Рекомендации по применению:

Для того, чтобы роботам было понятно, какие директивы выполнять при индексации обязательно соблюдайте следующие правила:

Используйте только необходимые директивы User-agent.
Обязательно проверяйте правильность написания имени робота. Не используйте кириллицу
Не оставляйте пустых строк.

Директивы allow и disallow

Allow и Disallow являются ключевыми элементами файла robots.txt и используются для управления индексацией страниц вашего сайта поисковыми системами.

Директива Allow разрешает индексацию указанных страниц или разделов сайта.

Синтаксис:

Allow: Путь_к_странице/разделу

Примеры:

Allow: / - разрешает индексацию главной страницы
Allow: /category/* - разрешает индексацию всех страниц в категории /category/
Allow: /product/1234 - разрешает индексацию страницы /product/1234

Директива Disallow запрещает индексацию указанных страниц или разделов сайта

Синтаксис:

Disallow: Путь_к_странице/разделу

Примеры:

Disallow: /admin/* - запрещает индексацию всех страниц в папке /admin/
Disallow: /image.jpg - запрещает индексацию изображения image.jpg
Disallow: /*.php$ - запрещает индексацию всех файлов с расширением .php

Sitemap в robots.txt: указание карты сайта для поисковых систем

Файл robots.txt служит не только для управления индексацией отдельных страниц, но и для того, чтобы указать поисковым системам расположение вашей карты сайта sitemap.xml.

Карта сайта – это файл, содержащий список всех страниц вашего сайта, которые вы хотите, чтобы поисковые системы проиндексировали.

Зачем указывать sitemap в robots.txt?

Ускорение индексации: ПС могут быстрее обнаружить новые и обновленные страницы вашего сайта, если вы укажете ссылку на карту сайта в robots.txt.
Улучшение понимания структуры сайта: Карта сайта помогает ПС понять структуру вашего сайта и взаимосвязь между страницами.
Больший контроль: Информируя ПС о наличии карты сайта, вы получаете больший контроль над тем, какие страницы они видят и индексируют.

Как указать sitemap в robots.txt

Для того, чтобы указать ссылку на карту сайта в robots.txt, используйте следующую директиву:

Sitemap: https://www.example.com/sitemap.xml

Несколько карт сайта

Если у вас есть несколько карт сайта для разных разделов вашего сайта, вы можете указать их все в robots.txt с помощью отдельной директивы Sitemap для каждой карты:

Sitemap: https://www.example.com/sitemap-posts.xml

Sitemap: https://www.example.com/sitemap-products.xml

Директива Clean-param в файле robots.txt – это расширение, поддерживаемое некоторыми поисковыми системами, в частности, Яндекс. Она позволяет указать динамические параметры URL-адресов, которые не влияют на содержание страницы, и сообщить ПС, что их следует игнорировать при индексации.

Зачем использовать Clean-param?

Устранение дублей контента: Страницы с одинаковым контентом, но разными значениями динамических параметров, могут рассматриваться ПС как дубли. Clean-param помогает этого избежать
Оптимизация краулингового бюджета: ПС не будут тратить ресурсы на сканирование страниц с разными значениями динамических параметров, если их содержание одинаково.
Более точная индексация: Указание Clean-param позволяет ПС точнее понять структуру вашего сайта и контент страниц

Синтаксис директивы Clean-param:

Clean-param: Имя_параметра1 & Имя_параметра2 & ...

Имя_параметра – это название динамического параметра в URL-адресе (например, session_id, sort, utm_source)
Вы можете указать несколько параметров, разделяя их символом &.

Пример использования:

Предположим, у вас есть интернет-магазин, и на страницах товаров используются параметры для сортировки (sort) и фильтрации (color):

Clean-param: sort & color

В этом случае Яндекс будет игнорировать эти параметры при индексации, понимая, что они не влияют на контент страницы товара.

Важно помнить:

Сlean-param поддерживается не всеми ПС, в основном Яндексом
Необходимо указывать все динамические параметры, которые не влияют на контент.
Неправильное использование Clean-param может привести к нежелательным последствиям, таким как пропущенные страницы.

В целом, Clean-param является полезным инструментом для оптимизации индексации вашего сайта в Яндексе, особенно если вы используете динамические параметры в URL-адресах.

Определение приоритетов в файле robots.txt

Хотя файл robots.txt сам по себе не имеет явной системы приоритетов, вы можете косвенно влиять на то, как поисковые роботы сканируют ваш сайт и какие страницы индексируют, используя несколько приемов:

Использование нескольких директив User-agent:

Разделяйте роботов ПС на группы и для каждой группы указывайте свои правила индексации. Для более важных групп роботов (например, Googlebot) ставьте их выше в файле robots.txt.

Пример:

User-agent: Googlebot

Allow: /

Allow: /category/*

Allow: /product/*

User-agent: Yandex

Allow: /

Disallow: /category/*

В этом примере роботу Googlebot будет разрешено индексировать все страницы (Allow: /), а также страницы в категориях (Allow: /category/*) и страницы товаров (Allow: /product/*). Роботу Yandex будет разрешено индексировать только главную страницу (Allow: /), а страницы в категориях будут запрещены (Disallow: /category/*).

Совместное использование директив Allow и Disallow:

Вы можете установить запрет на индексацию всех страниц сайта и при этом разрешить индексировать отдельную категорию.

Пример:

Disallow: /

Allow: /category/*

Allow: /product/*

В этом примере все страницы сайта запрещены к индексации (Disallow: /), за исключением страниц в категориях (Allow: /category/*) и страниц товаров (Allow: /product/*).

Проверка корректности файла robots.txt

Яндекс Вебмастер и Google Search Console являются незаменимыми инструментами для проверки правильности файла robots.txt и общего управления веб-сайтами. С их помощью можно легко определить, насколько эффективно файл robots.txt выполняет свои функции, блокирует ли он нежелательные ресурсы и разрешает ли доступ к важным страницам.

Яндекс Вебмастер позволяет в режиме реального времени отслеживать статус индексации сайта, а также предоставляет детальную информацию о заблокированных и разрешенных ресурсах в файле robots.txt. С помощью этого сервиса можно быстро находить и исправлять ошибки, а также оптимизировать процесс сканирования сайта поисковыми роботами Яндекса.

Google Search Console также является мощным инструментом для проверки файла robots.txt на ошибки и разрешения конфликтов. Сервис предоставляет статистику по заблокированным и разрешенным URL, а также позволяет управлять индексацией сайта и настраивать параметры сканирования. С его помощью можно получить рекомендации по улучшению файла robots.txt для повышения эффективности работы сайта в результатах поиска Google.

Проверка в Яндекс Вебмастер:

1. Найти инструмент:

Авторизуйтесь в Яндекс Вебмастере.
Выберите нужный сайт.
В меню слева перейдите в раздел "Инструменты".
Выберите "Анализ robots.txt".

2. Провести анализ:

В поле "Введите robots.txt" вставьте содержимое вашего файла robots.txt.
Нажмите "Проверить".

Проверка в Google Search Console:

1. Найти инструмент:

Авторизуйтесь в Google Search Console.
Выберите нужный сайт.
В меню слева перейдите в раздел "Настройки".
Выберите "Проверка robots.txt".

2. Провести анализ:

Google Search Console автоматически проверит ваш файл robots.txt.
Если обнаружены ошибки, они будут отображены на странице.

Используя Яндекс Вебмастер и Google Search Console вместе, можно обеспечить всестороннюю проверку правильности файла robots.txt, улучшить качество сканирования сайта и оптимизировать его видимость в поисковых системах.

Общие рекомендации по настройке robots.txt

Ниже я привел общепринятые рекомендации по настройке robots.txt для обеспечения корректной индексации вашего сайта:

Используйте только необходимые директивы.
Используйте правильный синтаксис для каждой директивы.
Не оставляйте пустых строк.
Используйте отступы для лучшей читаемости.
Добавьте комментарии для пояснения ваших действий.
Регулярно обновляйте robots.txt при изменениях на вашем сайте.
Используйте инструменты Яндекс Вебмастер и Google Search Console для проверки корректности robots.txt.
Используйте Clean-param для управления динамическими параметрами URL-адреса.

Заключение

Robots.txt – это не просто инструмент для исключения страниц из индексации. Он позволяет вам управлять процессом индексирования.

Корректная настройка файла robots.txt играет важную роль в SEO и общем функционировании вашего сайта. При его создании и редактировании важно учитывать требования поисковых систем и цели вашего сайта, чтобы получить максимальную отдачу от этого инструмента.

Надеюсь, что данная статья поможет вам правильно настроить robots.txt для вашего сайта!

Желаю успехов в продвижении ваших проектов!

Как правильно настроить файл robots.txt : полное руководство