X-Robots-Tag — это HTTP-заголовок, используемый в веб-страницах для управления поведением поисковых роботов при индексации контента. Использование X-Robots-Tag позволяет вебмастерам более точно контролировать, как поисковые системы будут обрабатывать и индексировать их контент.
Этот элемент дает поисковым системам инструкции, понятные без загрузки основного тела страницы. В связи с этим, его указания для поисковиков более авторитетны, ведь системы затрачивают меньше ресурсов для анализа страниц, а значит экономят краулинговый бюджет, выделенный для сайта.
В чем разница запрета на индексацию Robots.txt, Meta Robots и X-Robots-Tag
Все эти три способа предназначены для того, чтобы давать поисковым системам указания по индексации вашего сайта. Но все же они различаются. Разберемся, в каких случаях предпочтительнее пользоваться тем или иным способом.
Текстовый файл robots.txt
Стандартный и общепринятый метод управления индексацией сайта. Яндекс в основном четко понимает все указания, прописанные в файле и следует им. Но вот Google в этом плане более самостоятелен. Зачастую этот поисковик игнорирует указания файла robots.txt и в индекс попадают нежелательные страницы сайта. Использование этого способа очень удобно и просто, но не совсем надежно. Инструкции в файле robots.txt носят рекомендательный характер и могут игнорироваться поисковыми системами. Они управляют сканированием сайта, а не его индексацией.
Специальный тег Meta Robots
Смысл данного метода тот же — дать указание поисковику об индексации контента. Тег прописывается между <head> и </head> в коде страницы сайта. Он может не только закрывать от индексации страницы, но и запрещать поисковым роботам переходить по внутренним и внешним ссылкам, сохранять документ в кэше.
Но у данного метода есть и недостатки: он не может регулировать взаимодействия поисковых систем с медиаконтентом. Ведь данный метатег невозможно прописать к картинке или в видео.
Заголовок X-Robots-Tag
Наконец, третий способ управления поисковыми роботами, посещающими сайт — заголовок X-Robots-Tag. Данный метод считается самым надежным, так как его действие распространяется абсолютно на все виды контента, присутствующего на сайте.
Данный элемент устанавливается на уровне заголовков сервера, поэтому указания, прописанные в нем, имеют самые приоритетные правила.
Директивы X-Robots-Tag
Заголовок X-Robots-Tag использует те же самые директивы, что и метатег Meta Robots.
Рассмотрим основные из них, которые доступны в Google:
- all — ограничения на индексацию и выдачу контента отсутствуют. Данное правило будет использовано по умолчанию, если не прописаны другие указания. Оно никак не влияет на деятельность поисковых роботов.
- noindex — директива для запрета отображения документа. Также не будет отображаться ссылка на архивную версию страницы в поисковой выдаче.
- nofollow — запрет на переходы по ссылкам, содержащимся в теле страницы.
- none — директива, использование которой равнозначно использованию директив noindex и nofollow одновременно.
- noarchive — запрет на отображение в поисковой выдачи ссылки на архивную версию документа, сохраненную в кэше.
- nosnippet — запрет на отображение description (описания) документа на страницах поисковой выдачи.
- noodp — запрет на использование метаданных, присутствующих в проекте Open Directory, для этого документа.
- notranslate — в результатах поиска не будет отображаться окно с предложением перевода этого документа.
- noimageindex — запрет на индексацию изображений, содержащихся на странице.
- unavailable_after: [RFC-850 date/time] — запрет на отображение документа в поисковой выдаче по наступлению указанных даты и времени. Календарные и временные значения указываются в формате RFC-850.
Яндекс для X-Robots-Tag понимает только noindex, nofollow, none, noarchive. Более подробно со всеми директивами Яндекса можно ознакомиться в справке Вебмастера.
Как применять X-Robots-Tag
Использовать заголовок X-Robots-Tag можно двумя способами:
- С помощью настройки файла конфигурации сервера .htaccess.
- Реализация с помощью PHP.
Первый метод распространяется на статические документы, страницы и контент вашего сайта, а второй способ — на динамические страницы, создающиеся на вашем сайте в процессе его функционирования.
Чаще всего X-Robots-Tag используется с помощью файла .htaccess, поэтому разберем этот способ подробнее, а после кратко поговорим об использовании его с помощью PHP.
Пример использования X-Robots-Tag с помощью .htaccess
Данный файл .htaccess находится в корне сайта. Открывается для редактирования текстовым редактором или средствами, представленными в файловом менеджере вашего хостинга.
Допустим, вы решили закрыть от индексации все файлы .pdf, имеющиеся на вашем сайте. В .htaccess прописывается следующее:
<FilesMatch> — директива, позволяющая искать на сайте файлы, используя регулярные выражения.
В нашем случае, регулярным выражением является .pdf, а знак $, стоящий перед ним, указывает на то, что выражение находится в конце строки.
Таким образом, будут найдены все .pdf файлы и закрыты от индексации с помощью noindex. Также, директива nofollow запретит переходить по ссылкам в этих файлах.
Еще пример:
Будут найдены все файлы .doc, .pdf и .swf. К ним будут применены следующие правила:
- запрет на кэширование;
- запрет на отображение на них сниппета в результатах поисковой выдачи;
- 1 июля 2019 года в 12:00, все файлы будут удалены из индекса поисковых систем.
Пример использования с помощью PHP
В данном случае нам понадобится файл index.php, который также находится в корне вашего сайта. Между тегами <head> и </head>, нужно прописать функцию header.
Например, чтобы запретить индексацию контента и переход по ссылкам, функция должна выглядеть так:
Как скрыть заголовок от людей
Иногда бывают ситуации, в которых необходимо скрыть настройки своего сайта от посторонних глаз. Давайте настроим наш X-Robots-Tag таким образом, чтобы его указания видели только роботы поисковых систем.
Опять редактируем файл .htaccess:
Теперь X-Robots-Tag будет виден только поисковому роботу Google.
Как проверить использование HTTP-заголовка X-Robots-Tag
Если вы проверяете у своего сайта, то соответственно лучшим способом — это будет заглянуть в файл .htaccess.
Если у вас нет доступа к этому файлу, то тогда могут помочь эти инструменты. Рассмотрим несколько способов проверки HTTP-заголовка X-Robots-Tag в программах, сервисах и с помощью плагинов к браузерам.
Онлайн сервисы
1. Проверка ответа сервера от Яндекс
В сервисе Яндекса заголовок запрещающий индексацию страницы, будет выглядеть вот так.
2. askapache.com
Онлайн инструмент, простой и понятный в использовании.
3. pr-cy.ru/x-robots-checker
Русский сервис для проверки x-robots-tag.
4. site-analyzer.pro/services-seo/robots-meta-headers-checker/
Сервис русскоязычной программы по сканированию сайтов. Плюсы, что можно проверять одновременно до 50 url.
Плагины к браузерам
1. Плагин Web Developer для Google Chrome и Firefox
Установите расширение в ваш браузер, на интересующем вас документе нажмите на значок плагина и проследуйте: «Information» → «View Response Headers».
Результаты проверки выглядят так:
2. Плагин Detailed SEO Extension для Chrome и FireFox
Позволяет просматривать ответ сервера прямо при просмотре страниц. Очень удобный плагин. Доступен для Google Chrome и Firefox.
Программы
1. Netpeak Spider (Не доступен в России)
Данная программа позволяет сделать анализ всего сайта целиком, отдельных документов или отдельной директории. Закрытые для индексации документы будут отдельно выделены следующими параметрами:
- Запрет в X-Robots-Tag. Указывает на страницы, заблокированные к индексации посредством «noindex».
- Nofollow в X-Robots-Tag. Указывает на страницы, в которых присутствует «nofollow» в поле X-Robots-Tag в HTTP-заголовках ответа сервера.
2. Screaming Frog
Очень удобный инструмент для обхода огромных сайтов. Результаты выглядят так:
3. Site Analyzer
Русская разработка аналога Screaming Frog. Более современный интерфейс, стоит дешевле и справляется не хуже с большим объемом данных.
Выводы
Использование X-Robots-Tag имеет ряд преимуществ:
- возможность использования регулярных выражений в файле .htaccess для передачи указаний поисковым системам;
- действует для любого типа контента;
- правила индексации скрыты от посторонних глаз;
- имеет больший приоритет перед поисковиками, нежели файл robots.txt.
Использование данного метода должно осуществляться с осторожностью и пониманием значений директив.
Вопросы и ответы про X-Robots-Tag
Собрал самые популярные вопросы про заголовок http x-robots-tag, которые задают мне на консультациях. Кратко привожу ответы на них.
пишу из будущего
пандемия 2021 год
статья даже сейчас просто охрененная!!
она одна отвечает на десяток моих вопросов висевших годы
а когда я дочитал ее до конца, не веря в происходящее,
я увидел еще 3 статьи, ну прямо в точку
это именно те три магических зерна знания, которые вытолкнули меня на новый SEO Level
и в конце моя любимая сео прога… рыдаю
спасибо, бро!
Спасибо и вам, что написали этот коммент, давно мне так не было приятно за свои статьи :))) В мире переизбытка информации это очень ценно. Рад, что помог вам!