вторник, 11 октября 2016 г.

Робот Googlebot

Робот Googlebot – это разработанный компанией Google инструмент для сканирования контента в Интернете (иногда называемый "пауком"). Его задача – обнаруживать и добавлять в индекс Google новые или измененные страницы.
Мы обрабатываем (сканируем) миллиарды страниц, используя для этого огромное количество компьютеров. Робот Googlebot действует полностью автоматически: он самостоятельно определяет, какие сайты сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом из них.
Для начала робот Googlebot проверяет список страниц, созданный на основе предыдущих сеансов сканирования, а также дополняет его данными из файлов Sitemap, предоставленных веб-мастерами. Просматривая эти сайты, он находит на страницах ссылки (SRC и HREF), а затем также добавляет их в список. Все новые и измененные сайты, а также неработающие ссылки помечаются, и впоследствии соответствующие данные появляются в индексе Google.

Для веб-мастеров: робот Googlebot и ваш сайт

Как Googlebot работает с вашим сайтом?

Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. Если в сети наблюдаются задержки, эта периодичность может увеличиться.
Робот Googlebot предназначен для распределенной работы на многих компьютерах. Это обеспечивает рост эффективности и масштабирования системы по мере расширения сети. Кроме того, некоторые поисковые роботы запускаются на компьютерах, расположенных рядом с серверами, на которых находятся нужные сайты. Это позволяет сократить интернет-трафик. Поэтому в ваших журналах могут быть записаны обращения от нескольких компьютеров в домене google.com, для которых в качестве агента пользователя указан робот Googlebot. Наша цель заключается в том, чтобы просканировать как можно больше страниц на сайте за один раз, не оказывая излишней нагрузки на ваш сервер. Запросить изменение скорости сканирования.

Как закрыть роботу Googlebot доступ к вашему контенту

Даже если вы сами не размещаете ссылки на ваш веб-сервер, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сервера на другой, его URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сервере в журнале источников ссылок. Также в Интернете множество устаревших и неработающих ссылок. Если на другой странице размещена некорректная или устаревшая ссылка на ваш сайт, робот Googlebot попытается использовать ее.
Если вы хотите заблокировать сканирование своего сайта роботом Googlebot, используйте особые инструменты. Например, можно запретить доступ к файлам и каталогам на сервере с помощью файла robots.txt.
После создания файла robots.txt может пройти некоторое время, пока робот Googlebot обнаружит эти изменения. Если же он по-прежнему сканирует заблокированный контент, убедитесь, что файл находится в корневом каталоге сервера, например www.example.com/robots.txt, а не в подкаталоге.
Если нужно просто избавиться от ошибки "файл не найден" в журнале веб-сервера, создайте пустой файл robots.txt. Если же вы не хотите, чтобы робот Googlebot переходил по ссылкам на страницы сайта, воспользуйтесь метатегом nofollow. Просто добавьте атрибут rel="nofollow" непосредственно в ссылку.
Вот ещё несколько советов.
  • С помощью инструмента Проверка файла robots.txt на странице Заблокированные URL можно узнать, как робот Googlebot будет интерпретировать содержание этого файла. Агентом пользователя Google являетсяGooglebot.
  • Инструмент Просмотреть как Googlebot в Search Console помогает проанализировать сайт. Это поможет вам, если на сайте есть ошибки или его контент не отображается в результатах поиска Google.

Как проверить, может ли робот Googlebot отсканировать ваш сайт

Робот Googlebot находит сайты, переходя по ссылкам от страницы к странице. Обнаруженные при этом неполадки можно найти в разделе Ошибки сканирования вашего аккаунта Search Console. Рекомендуется регулярно просматривать его и вовремя реагировать на возникающие проблемы.
Если файл robots.txt работает правильно, но на сайте нет посетителей, попробуйте выяснить, почему возникают проблемы при поиске по вашему контенту.

Проблемы, связанные со спамерами и другими агентами пользователей

IP-адреса, которые использует робот Googlebot, время от времени меняются. Чтобы узнать, посещал ли он ваш сайт, просмотрите данные по агенту пользователя (Googlebot). С помощью обратного DNS-запроса можно проверить, действительно ли к вашему серверу обращался Googlebot, а не другой робот.
Googlebot и все распространенные поисковые системы выполняют инструкции, указанные в файле robots.txt, но некоторые роботы и спамеры этого не делают. Сообщить о спаме
У Google есть и другие агенты пользователей, например Feedfetcher. Поскольку запрос от такого агента является результатом действия не робота, а человека, добавившего фид на свою главную страницу Google, Feedfetcher не следует правилам в файле robots.txt. Если вы не хотите, чтобы он сканировал ваш сайт, настройте сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. д.

Комментариев нет :

Отправить комментарий