account@smirnov.marketing

Как правильно настроить файл robots.txt : полное руководство

  1. Главная
  2. Как правильно настроить файл robots.txt: полное руководство

Приветствую вас, друзья!

Ранее мы уже обсуждали на страницах этого блога такую важную для SEO тему, как индексация сайта и способы ее ускорения. Более подробно ознакомиться с ней вы можете здесь.

Сегодня мы продолжим говорить на эту тему, но рассмотрим ее  с точки зрения управления процессом индексирования, а именно: как разрешить или запретить попадание в индекс определенных страниц.

Я расскажу вам, что такое файл robots.txt, почему он так важен для индексации сайта и для SEO в целом и как его правильно настроить.

Для лучшего понимания ситуации, стоит обратиться к истории:

в прошлом, когда поисковые системы только начинали развиваться и значительно отличались от современных, поисковые роботы автоматически сканировали все доступные страницы сайтов. В результате в индекс попадала служебная информация, личные данные и другие ненужные материалы, которые не должны отображаться в поисковой выдаче. Неконтролируемая индексация всего подряд приводила к нерелевантным результатам поиска, что снижало эффективность поисковой системы.

Нужно было каким-то образом повлиять на этот процесс и “подсказать” роботам, какие страницы не нужно индексировать. Для этих целей и был придуман файл robots.txt.

Что такое robots.txt?

Итак, robots.txt представляет собой простой текстовый файл, который содержит инструкции (директивы) для краулеров о том, каким образом им нужно индексировать сайт.

Когда краулер хочет просканировать сайт, он сначала отправляет запрос на сервер сайта, чтобы получить robots.txt. Файл роботс должен находиться в корневой папке вашего веб-сайта (обычно по адресу https://www.example.com/robots.txt) и быть общедоступным для чтения роботами ПС.

По умолчанию поисковые системы полагают, что могут сканировать и индексировать абсолютно любую страницу на вашем сайте, если это не запрещено специальной директивой в robots.txt.  

В случае, если вам есть что, “прятать” от индексации на вашем сайте  - robots.txt вам просто необходим.

Здесь также хочу отметить, что не всегда краулеры следуют инструкциям в файле. Роботы Яндекса и Гугла придерживаются указаний в директивах, но роботы других ПС могут их игнорировать.

Основные директивы и синтаксис robots.txt

Создание файла роботс не требует особых знаний или навыков. Вам просто нужно создать текстовый файл с именем robots.txt и сохранить его в корневой директории вашего сайта. Вы можете использовать любой текстовый редактор, такой как Notepad++ и другие подобные ему.

Пример структуры файла robots.txt для сайта gismeteo.ru

Рассмотрим основные директивы файла robots.txt и какие функции они выполняют:

User-agent

Директива User-agent служит для определения правил индексации для конкретных роботов поисковых систем. Она позволяет вам указать, каким роботам разрешено или запрещено сканировать ваш сайт. 

User-agent имеет следующий синтаксис:

User-agent: Имя_робота

Имя_робота – это строка, которая идентифицирует робота поисковой системы.

Для каждой поисковой системы есть собственное имя робота: 

Yandex - для Яндекса, 

Googlbot - для Google, 

*  - для всех роботов

Рекомендации по применению:

Для того, чтобы роботам было понятно, какие директивы выполнять при индексации обязательно соблюдайте следующие правила:

  • Используйте только необходимые директивы User-agent.

  • Обязательно проверяйте правильность написания имени робота. Не используйте кириллицу

  • Не оставляйте пустых строк.

Директивы allow и disallow

 Allow и Disallow являются ключевыми элементами файла robots.txt и используются для управления индексацией страниц вашего сайта поисковыми системами.

 Директива Allow разрешает индексацию указанных страниц или разделов сайта.

Синтаксис:

Allow: Путь_к_странице/разделу

Примеры:

  • Allow: / - разрешает индексацию главной страницы

  • Allow: /category/* - разрешает индексацию всех страниц в категории /category/

  • Allow: /product/1234 - разрешает индексацию страницы /product/1234

Директива Disallow запрещает индексацию указанных страниц или разделов сайта

Синтаксис:

Disallow: Путь_к_странице/разделу

Примеры:

  • Disallow: /admin/* - запрещает индексацию всех страниц в папке /admin/

  • Disallow: /image.jpg - запрещает индексацию изображения image.jpg

  • Disallow: /*.php$ - запрещает индексацию всех файлов с расширением .php

Sitemap в robots.txt: указание карты сайта для поисковых систем

Файл robots.txt служит не только для управления индексацией отдельных страниц, но и для того, чтобы указать поисковым системам расположение вашей карты сайта sitemap.xml. 

Карта сайта – это файл, содержащий список всех страниц вашего сайта, которые вы хотите, чтобы поисковые системы проиндексировали.

Зачем указывать sitemap в robots.txt?

  • Ускорение индексации: ПС могут быстрее обнаружить новые и обновленные страницы вашего сайта, если вы укажете ссылку на карту сайта в robots.txt.

  • Улучшение понимания структуры сайта: Карта сайта помогает ПС понять структуру вашего сайта и взаимосвязь между страницами.

  • Больший контроль: Информируя ПС о наличии карты сайта, вы получаете больший контроль над тем, какие страницы они видят и индексируют.

Как указать sitemap в robots.txt

Для того, чтобы указать ссылку на карту сайта в robots.txt, используйте следующую директиву:

Sitemap: https://www.example.com/sitemap.xml

Несколько карт сайта

Если у вас есть несколько карт сайта для разных разделов вашего сайта, вы можете указать их все в robots.txt с помощью отдельной директивы Sitemap для каждой карты:

Sitemap: https://www.example.com/sitemap-posts.xml

Sitemap: https://www.example.com/sitemap-products.xml

Рекомендации

  • Убедитесь, что ваша карта сайта корректна и обновлена.

  • Размещайте директиву Sitemap в конце файла robots.txt.

  • Можно указать несколько карт сайта.

  • Проверяйте файл robots.txt с помощью инструментов Google Search Console, чтобы убедиться, что ПС обнаружили вашу карту сайта.

Clean-param: Управление динамическими параметрами в robots.txt

Директива Clean-param в файле robots.txt – это расширение, поддерживаемое некоторыми поисковыми системами, в частности,  Яндекс. Она позволяет указать динамические параметры URL-адресов, которые не влияют на содержание страницы, и сообщить ПС, что их следует игнорировать при индексации.

Зачем использовать Clean-param?

  • Устранение дублей контента: Страницы с одинаковым контентом, но разными значениями динамических параметров, могут рассматриваться ПС как дубли. Clean-param помогает этого избежать

  • Оптимизация краулингового бюджета: ПС не будут тратить ресурсы на сканирование страниц с разными значениями динамических параметров, если их содержание одинаково.

  • Более точная индексация: Указание Clean-param позволяет ПС точнее понять структуру вашего сайта и контент страниц

Синтаксис директивы Clean-param:

Clean-param: Имя_параметра1 & Имя_параметра2 & ...

  • Имя_параметра – это название динамического параметра в URL-адресе (например, session_id, sort, utm_source)

  • Вы можете указать несколько параметров, разделяя их символом &.

Пример использования:

Предположим, у вас есть интернет-магазин, и на страницах товаров используются параметры для сортировки (sort) и фильтрации (color):

Clean-param: sort & color

В этом случае Яндекс будет игнорировать эти параметры при индексации, понимая, что они не влияют на контент страницы товара.

Важно помнить:

  • Сlean-param поддерживается не всеми ПС, в основном Яндексом

  • Необходимо указывать все динамические параметры, которые не влияют на контент.

  • Неправильное использование Clean-param может привести к нежелательным последствиям, таким как пропущенные страницы.

В целом, Clean-param является полезным инструментом для оптимизации индексации вашего сайта в Яндексе, особенно если вы используете динамические параметры в URL-адресах.

Определение приоритетов в файле robots.txt

Хотя файл robots.txt сам по себе не имеет явной системы приоритетов, вы можете косвенно влиять на то, как поисковые роботы сканируют ваш сайт и какие страницы индексируют, используя несколько приемов:

Использование нескольких директив User-agent:

Разделяйте роботов ПС на группы и для каждой группы указывайте свои правила индексации. Для более важных групп роботов (например, Googlebot) ставьте их выше в файле robots.txt.

Пример:

User-agent: Googlebot

Allow: /

Allow: /category/*

Allow: /product/*

User-agent: Yandex

Allow: /

Disallow: /category/*

В этом примере роботу Googlebot будет разрешено индексировать все страницы (Allow: /), а также страницы в категориях (Allow: /category/*) и страницы товаров (Allow: /product/*). Роботу Yandex будет разрешено индексировать только главную страницу (Allow: /), а страницы в категориях будут запрещены (Disallow: /category/*).

Совместное использование директив Allow и Disallow:

Вы можете установить запрет на индексацию всех страниц сайта и при этом разрешить индексировать отдельную категорию. 

Пример:

Disallow: /

Allow: /category/*

Allow: /product/*

В этом примере все страницы сайта запрещены к индексации (Disallow: /), за исключением страниц в категориях (Allow: /category/*) и страниц товаров (Allow: /product/*).

Проверка корректности файла robots.txt

Яндекс Вебмастер и Google Search Console являются незаменимыми инструментами для проверки правильности файла robots.txt и общего управления веб-сайтами. С их помощью можно легко определить, насколько эффективно файл robots.txt выполняет свои функции, блокирует ли он нежелательные ресурсы и разрешает ли доступ к важным страницам.

Яндекс Вебмастер позволяет в режиме реального времени отслеживать статус индексации сайта, а также предоставляет детальную информацию о заблокированных и разрешенных ресурсах в файле robots.txt. С помощью этого сервиса можно быстро находить и исправлять ошибки, а также оптимизировать процесс сканирования сайта поисковыми роботами Яндекса.

Google Search Console также является мощным инструментом для проверки файла robots.txt на ошибки и разрешения конфликтов. Сервис предоставляет статистику по заблокированным и разрешенным URL, а также позволяет управлять индексацией сайта и настраивать параметры сканирования. С его помощью можно получить рекомендации по улучшению файла robots.txt для повышения эффективности работы сайта в результатах поиска Google.

Проверка в Яндекс Вебмастер:

1. Найти инструмент:

  • Авторизуйтесь в Яндекс Вебмастере.
  • Выберите нужный сайт.
  • В меню слева перейдите в раздел "Инструменты".
  • Выберите "Анализ robots.txt".

2. Провести анализ:

  • В поле "Введите robots.txt" вставьте содержимое вашего файла robots.txt.
  • Нажмите "Проверить".

Проверка в Google Search Console:

1. Найти инструмент:

  • Авторизуйтесь в Google Search Console.
  • Выберите нужный сайт.
  • В меню слева перейдите в раздел "Настройки".
  • Выберите "Проверка robots.txt".

2. Провести анализ:

  • Google Search Console автоматически проверит ваш файл robots.txt.
  • Если обнаружены ошибки, они будут отображены на странице.

Используя Яндекс Вебмастер и Google Search Console вместе, можно обеспечить всестороннюю проверку правильности файла robots.txt, улучшить качество сканирования сайта и оптимизировать его видимость в поисковых системах.

Общие рекомендации по настройке robots.txt

Ниже я привел общепринятые рекомендации по настройке robots.txt для обеспечения корректной индексации вашего сайта:

  • Используйте только необходимые директивы.

  • Используйте правильный синтаксис для каждой директивы.

  • Не оставляйте пустых строк.

  • Используйте отступы для лучшей читаемости.

  • Добавьте комментарии для пояснения ваших действий.

  • Регулярно обновляйте robots.txt при изменениях на вашем сайте.

  • Используйте инструменты Яндекс Вебмастер и Google Search Console для проверки корректности robots.txt.

  • Используйте Clean-param для управления динамическими параметрами URL-адреса.

Заключение

Robots.txt – это не просто инструмент для исключения страниц из индексации. Он позволяет вам управлять процессом индексирования. 

Корректная настройка файла robots.txt играет важную роль в SEO и общем функционировании вашего сайта. При его создании и редактировании важно учитывать требования поисковых систем и цели вашего сайта, чтобы получить максимальную отдачу от этого инструмента.

Надеюсь, что данная статья поможет вам правильно настроить robots.txt для вашего сайта!

Желаю успехов в продвижении ваших проектов!

ХОТИТЕ ТАКЖЕ?

ПОЛУЧИТЬ ПРЕДЛОЖЕНИЕ ПО ПРОДВИЖЕНИЮ САЙТА

Наш менеджер свяжется с вами для уточнения информации по вашему проекту

Ваше имя
Ссылка на сайт
Номер телефона *

Услуги

Об агентстве

Контакты 

Бутиковое SEO-агентство полного цикла

г. Москва, ул. Автозаводская 23б к2

Smirnov.Marketing © 2016 - 2024 Все права защищены. Политика конфиденциальности