вторник, 11 октября 2016 г.

Как заблокировать доступ роботам

Не все материалы на информационных сайтах подходят для Google Новостей. Однако статьи для нашего сервиса подбираются автоматически, и в Google Новости может попасть лишняя информация. Страницы сканирует та же программа, которая используется поиском Google – робот Googlebot.
Запретить индексирование того или иного раздела можно с помощью файла robots.txt, метатегов и атрибутов заголовка HTTP. Кроме того, вам потребуется использовать идентификатор робота Googlebot либо Googlebot-News.
Так вы сможете контролировать, где виден ваш контент.
  • Если вы заблокируете доступ для робота Googlebot-News, мы не будем индексировать ваш сайт в Google Новостях.
  • Если вы заблокируете доступ для робота Googlebot, мы не будем индексировать ваш сайт ни в Google Новостях, ни в результатах поиска Google.
Обратите внимание, что из нескольких ограничений доступа для роботов Google применяется наиболее строгое.

Как создать файл robots.txt

С помощью файла robots.txt можно эффективно управлять доступом к материалам. В этом документе указываются разделы сайта, которые должны индексироваться в Google Поиске и Google Новостях. Подробное руководство по созданию такого файла и работе с ним вы найдете в Справочном центре Search Console.
Обратите внимание:
  • Чтобы ваш сайт не появлялся в Google Новостях, заблокируйте в файле robots.txt доступ к ресурсу для робота Googlebot-News.
  • Чтобы запретить индексирование сайта в Google Новостях и поиске Google, заблокируйте в файле robots.txt доступ к ресурсу для робота Googlebot.
Убедитесь, что у поискового робота есть доступ к файлу robots.txt. В противном случае мы не узнаем, что вы запретили сканирование отдельных разделов сайта.

Как создать метатег

Чтобы блокировать индексирование определенной страницы, добавьте в ее HTML-код метатег. 
Обратите внимание:
  • Чтобы запретить роботу Googlebot-News индексировать определенные статьи на сайте, используйте следующий метатег:
<meta name="Googlebot-News" content="noindex, nofollow">
  • Чтобы запретить роботу Googlebot индексировать определенные статьи на сайте, используйте следующий метатег:
<meta name="googlebot" content="noindex, nofollow">
  • Чтобы запретить всем роботам индексировать определенные статьи на сайте, используйте следующий метатег:
<meta name="robots" content="noindex, nofollow">
  • Чтобы запретить роботам индексировать изображения в определенной статье, используйте следующий метатег:
<meta name="robots" content="noimageindex">
  • Если статья перестала быть актуальной и ее нужно удалить из индекса Google, используйте следующий тег:
<meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">
Дата и время должны быть указаны в формате RFC 850. Страница исчезнет из результатов поиска Google примерно через сутки после указанной в теге даты. Однако, чтобы тег сработал правильно, он должен быть добавлен в код статьи до ее первого индексирования.

Как использовать спецификации заголовка HTTP

Инструкции для роботов можно также указать в заголовке HTTP. Дополнительная информация для разработчиков приведена в соответствующей спецификации.

Комментариев нет :

Отправить комментарий