Краулеры (поисковые роботы): как управлять и анализировать

Краулер (поисковый бот, робот, паук) — это неотъемлемая для поисковой системы программа, отвечающая за поиск сайтов и сканирование их содержимого путем перехода по страницам и ссылкам для занесения собранной информации в базу данных поисковика.

Допустим, есть пользователь Иван Иванов, ежедневно посещающий какой-нибудь популярный книжный онлайн-ресурс, и этот ресурс регулярно пополняется новыми произведениями. Переходя на сайт, Иван осуществляет следующую последовательность действий:

  1. Заходит на главную страницу.
  2. Переходит в раздел «Новые книги».
  3. Просматривает список с недавно добавленными материалами.
  4. Открывает ссылки с заинтересовавшими его
    заголовками.
  5. Ознакомляется с аннотациями и скачивает
    интересующие его файлы.

Чтобы найти подходящий материал, Иванову пришлось потратить около 10 минут. Если каждый день уделять 10 минут на поиск нужной книги, в месяц на этой уйдет в общем 5 часов. И это касается только одного сайта.

Во избежание таких временных затрат нужно использовать программу, в автоматическом режиме занимающуюся поиском новинок.

Без роботов ни один поисковик не будет эффективным, вне зависимости от того, Google это или новая поисковая система. И чтобы не делать, как Иван, они используют роботов для «обхода» сайтов, отыскивающих для поисковых систем новую информацию, которую они смогут предложить пользователям. И чем лучше и быстрее краулер сканирует страницы, тем актуальнее материалы находятся в выдаче поисковой системы.

Основные боты выполняют следующие функции:

  1. Собирают новый или обновленный контент с веб-ресурсов. Сканированием свежих публикаций и ранее размещенных статей занимаются пауки первого порядка.
  2. Идентификация зеркал. Краулер отыскивает сайты, содержащие идентичный контент, но с разными доменами. Подобные боты имеет Яндекс.
  3. Сканирование графических файлов. Для поиска графики может быть привлечен отдельный робот.

И много других различных краулеров, которые имеют свое предназначение, о которых мы поговорим ниже.

Виды краулеров

У каждого поисковика есть набор собственных веб-пауков, выполняющих различные функции. Поговорим о ботах двух популярнейших поисковых машин.

Роботы Яндекса

  • YandexBot – основной краулер, занимающийся индексацией.
  • YandexImages – вносит в индекс изображения ресурсов.
  • YandexMobileBot – собирает страницы для их анализа и определения адаптации для смартфонов.
  • YandexDirect – сканирует данные о материалах ресурсов-партнером РСЯ.
  • YandexMetrika – поисковый паук сервиса Яндекс.Метрика.
  • YandexMarket – бот Яндекс.Маркета.
  • YandexCalenda – краулер Яндекс.Календаря.
  • YandexScreenshotBot – делает скриншоты документов.
  • YandexMedia – индексатор мультимедийных данных.
  • YandexVideoParser – робот для видео.
  • YandexPagechecker – отображает микроразметку.
  • YandexOntoDBAPI – паук объектного ответа, который скачивает изменяющиеся данные.
  • YandexAccessibilityBot – скачивает документы и проверяет, имеют ли к ним доступ пользователи.
  • YandexSearchShop – скачивает файлы формата Yandex Market Language, которые относятся к каталогам товаров.
  • YaDirectFetcher – собирает страницы, содержащие рекламу, с целью проверки их доступности для пользователей и анализа тематики.
  • YandexirectDyn – создает динамические баннеры.

Боты Google

  • Googlebot – главный индексатор контента страниц не только для ПК, но и адаптированных под мобильные устройства.
  • AdsBot-Google – анализирует рекламу и оценивает ее качество на страницах, оптимизированных под ПК.
  • AdsBot-Google-Mobile – выполняет аналогичные функции, что и предыдущий, только предназначен для мобильных страниц.
  • AdsBot-Google-Mobile-Apps – работает также, как и стандартный AdsBot, но оценивает рекламу в приложениях, предназначенных для устройств на базе операционной системы Android.
  • Mediaparnters-Google – краулер маркетинговой сети Google AdSense.
  • APIs-Google – юзер-агент пользователя APIs-Google для отправки пуш-уведомлений.
  • Googlebot-Video – вносит в индекс видеофайлы, содержащиеся на страницах ресурсов.
  • Googlebot-Image – индексатор изображений.
  • Googlebot-News – сканирует страницы с новостями и добавляет их в Google Новости.

Другие поисковые роботы

Краулеры есть не только у поисковых систем. Так, у популярной соцсети Facebook роботы собирают коды страниц, которые репостят пользователи, чтобы показывать ссылки с заголовками, описанием и картинкой. Рассмотрим более детально веб-пауков, не относящихся к поисковым системам Google и Яндексу.

Keys.so

Самый популярный инструмент в России для SEO-продвижения, который помогает анализировать ссылочную массу и ключевые запросы по которым показываются страницы сайтов. Что делает:

  • изучает обратные ссылки;
  • проводит мониторинг конкурентов;
  • анализирует ранжирование страниц по запросам из Wordstat Yandex;
  • проверяет сайты, недействительные ссылки;
  • анализирует контекстную рекламу в выдаче;
  • изучает ключевые слова, фразы и многое другое.

Благодаря нему специалисты в области цифрового маркетинга могут проанализировать своих конкурентов и подобрать наиболее эффективную тактику продвижения сайта.

Megaindex

Еще один отличный сервис для оптимизации сайтов, который имеет много данных для аналитики. Он решает такие задачи:

  • создание качественного списка ключевиков;
  • идентификацию и исправление ошибок на сайте;
  • мониторинг и анализ отчетов;
  • анализ ссылочной массы;
  • поиск факторов, негативно влияющих на SEO;
  • увеличение целевой аудитории и многое другое.

SEO Spider

Программа для сканирования данных на маленьких и крупных ресурсах. На ее основе вы примерно можете понять, как поисковые системе обходят URL сайта. Способна:

  • находить повторяющиеся материалы;
  • объединяться с аналитикой от Google;
  • отыскивать битые ссылки;
  • обрабатывать большой список ссылок;
  • осматривать элементы страниц отдельно для каждого URL;
  • изучать краулеры и другие директивы.

Spider работает на оперативных системах Windows, MacOS и Ubuntu. В бесплатной версии можно анализировать до 500 страниц.

Как управлять поисковым роботом

Очень часто приходится ограничивать доступ некоторым краулерам к определенным страницам сайта. Для этого существуют специальные правила, которые вебмастера и SEO-специалисты прописывают для пауков, чтобы они их придерживались. Указываются они в файле robots.txt.

Попадая на сайт, роботы сначала сканируют информацию в файле со списком документов, запрещенных для обхода, например, личные данные зарегистрированных пользователей. Ознакомившись с правилами, краулер или уходит с сайта, или начинает индексировать ресурс обходя стороной запрещенные URL и директории.

Что прописывать в файле robots:

  • разделы сайта или фрагменты контента, закрытых/открытых
    для пауков;
  • интервалы между запросами роботов.

Команды можно адресовать как всем ботам сразу, так и каждому по-отдельности.

Например, разберем такие записи в файле robots.txt:

User-agent: *
Disallow: /about.html
Disallow: /images/*
Allow: /images/$

User-Agent: Twitterbot
Allow: /images

Определим, что все это значит:

  1. Страница about.html закрыта от всех краулеров.
  2. Роботам твиттера разрешено сканировать все урлы, в адресе которых содержится /images.
  3. Остальным поисковым паукам разрешено посещать страницы, которые заканчиваются на /images (Allow: /images/$), но глубже переходить нельзя (Dissallow: /images/*).

Как узнать что робот заходил на сайт

Есть несколько способов вычислить, что краулер посещал сайт и какие именно страницы. Все зависит от того, чей это бот.

Поисковый робот Яндекса

Основной паук поисковика, индексирующий контент, посещает страницы веб-ресурсов и отсылает их в базу данных с завидной регулярностью. Но он может найти не все необходимые страницы сайта, если они например недоступны.

В Яндекс.Вебмастере вы можете с легкостью узнать, какие именно страницы обошел бот, чтобы отыскать URL недоступных для него страниц по причине перебоев на сервере или неправильного содержимого.

Зайдите в панели управления Вебмастера на страницу Индексирование, а затем – Статистика обхода. Обновление данных проводится ежедневно, максимум через 6 часов с той поры, когда робот зашел на страницу.

Статистика обхода роботов в Яндекс Вебмастер

Изначально на сервисе вы увидите информацию по всему ресурсу. Если же вам нужна информация по определенному разделу, кликните на него в списке, расположенного в поле с указанным адресом сайта. Разделы выстроены в соответствии со структурой ресурса. Если вы не нашли в списке нужную страницу, сообщите о них поисковику через переобход страниц.

Другие роботы

Еще один отличный способ вычислить, что поисковый паук посещал сайт — заглянуть в логи сервера.

В них хранится вся информация касательно того, кто посещал ресурс, когда и по каким страницам переходил, какой у него IP-адрес, какой ответ получил на сайте и прочее. Читать логи вручную довольно трудно, поэтому есть специальные программы, помогающие анализировать и читать логи в удобном формате, что очень важно, потому что с их помощью вы видите любое посещение роботом и человеком.

Одним из самых популярных инструментов, используемых с данной целью, является Screaming Frog SEO Log File Analyser. Отмечу, что программа платная. Есть и бесплатная версия с ограниченным функционалом:

  1. Можно добавить лишь один сайт.
  2. Журнал событий содержит не более 1000 строк.
  3. Нет бесплатной техподдержки.

Пользоваться программой просто. Для начала потребуется найти файлы access.log на сервере и загрузить их на компьютер с помощью FTP. В большинстве случаев они располагаются в папке /access_logs/ или просто /logs/. Если вы хотите детально проанализировать историю посещений, скачайте логи за период не менее месяца. Скачав файлы, кликните по Import и выберите пункт Log file.

Затем, как данные загрузятся, укажите любое название проекта и укажите часовой пояс. Далее отобразится главное окно админки, где показывается подробная информация: какие краулеры посещали ресурс, с какой частотой, сколько страниц просматривали и так далее.

Анализ логов сервера с помощью Screaming Frog SEO Log File Analyser

Но можно «копнуть» еще глубже. К примеру, узнать, какие УРЛы загружаются медленно, а с каких часто приходят на сайт. Помимо этого показывается информация о кодах ответов, отдаваемых ссылками. В меню Response Codes есть фильтр для группирования адресов по типу кода. Так вы очень быстро отыщите ошибки.

Кстати, если нажать правой кнопкой на ссылку, то можно:

  • проверить ее на наличие в индексе поисковиков Google, Bing и Yahoo;
  • узнать внешние ссылки, ведущие на нее;
  • открыть ссылку в robots.txt;
  • открыть в браузере или скопировать ее.

Особенно удобные функции перехода в файл robots и проверки сканирования.

Выводы

Без краулеров не существовало бы и поисковиков, ведь именно они сканируют сайты, собирают в них информацию и отправляют ее в базу данных, чтобы затем система включила ее в свой поиск и предоставила пользователям.

Поисковые боты нужны не только поисковикам, но и самим вебмастерам, чтобы успешно анализировать ресурсы, исправлять слабые места и успешно их раскручивать для поднятия на верхние позиции результатов выдачи.

Вопросы и ответы про краулеры

Собрал список вопросов про поисковых роботов, которые мне часто задают на консультациях по SEO. Привожу краткие ответы.

Как поисковые краулеры определяют, какие страницы сканировать?
Краулеры начинают с известных им URL из предыдущих сканирований. Затем они находят новые ссылки на этих страницах и следуют по ним, постоянно расширяя охват сканирования. Роботы также учитывают сигналы вроде авторитетности сайтов и файл Sitemap.xml, чтобы определить приоритетность просматриваемых страниц.
Что происходит, когда краулер посещает страницу?
При посещении страницы краулер выполняет ряд действий: загружает и анализирует HTML-код, извлекает текстовый контент, изображения, видео, метаданные и прочие компоненты. Затем он определяет релевантность страницы для различных поисковых запросов и добавляет эту информацию в индекс.
Как часто сканируются страницы?
Нет единого правила — частота зависит от многих факторов. Популярные, авторитетные, часто обновляемые сайты сканируются чаще, возможно ежедневно. Менее значимые ресурсы — реже, раз в несколько недель или месяцев. На периодичность также влияют частота обновления сайта, его техническое состояние, скорость загрузки, качество содержимого и пр.
Как заставить краулеров чаще сканировать мой сайт?
Оптимизируйте сайт для быстрого сканирования: удалите неисправные ссылки, старые страницы, дубликаты, устраните техошибки. Публикуйте качественный, уникальный контент как можно чаще. Повышайте авторитетность и привлекательность ресурса внутренними и внешними ссылками. Своевременно сообщайте поисковикам об изменениях используя инструменты вебмастеров.
Могут ли краулеры индексировать файлы вроде видео, PDF, изображений?
Да, современные краулеры способны распознавать и извлекать контент из разных типов файлов. Однако для этого важно правильное оформление: четкие имена файлов, наличие текстовых описаний, точные метаданные. Поэтому помогайте краулерам лучше понять файлы на вашем сайте.

Поделиться статьей:

Автор статьи: Александр Овсянников

Частный SEO-специалист. С 2009 года помогаю людям и компаниям привлекать клиентов в свой бизнес из поисковых систем Яндекс и Google.

Комментарии
Подписаться
Уведомить о
guest
1 комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Никита
Никита
10.01.2020 01:25

Приветствую!
Действительно полезная статья о поисковых роботах и не только. Сразу стало многое понятнее. Теперь не буду думать, что это за Семруш по моему сайту бегает 🙂