Поисковые роботы Google
Под этим термином понимаются любые программы, которые автоматически обнаруживают и сканируют веб-сайты, переходя по ссылкам от страницы к странице. Наш основной поисковый робот называется Googlebot. В таблице ниже приведены сведения о ключевых поисковых роботах Google, которые попадают в журналы источников ссылок. Также вы узнаете, как указывать данные этих роботов в файле robots.txt, в метатегах robots и в командах X-Robots-Tag HTTP.
Поисковый робот | Токен агента пользователя | Полная строка агента пользователя (указана в файлах журнала сайта) |
---|---|---|
Googlebot (Google Поиск) | Googlebot | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html )ИЛИ Googlebot/2.1 (+http://www.google.com/bot.html ) – редко используется |
Googlebot News | Googlebot-News ( Googlebot ) | Googlebot-News |
Googlebot Images | Googlebot-Image ( Googlebot ) | Googlebot-Image/1.0 |
Googlebot Video | Googlebot-Video ( Googlebot ) | Googlebot-Video/1.0 |
Google Mobile (для мобильных телефонов) | Googlebot-Mobile |
|
Google Smartphone | Googlebot |
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
Google Mobile AdSense | Mediapartners-Google ИЛИ Mediapartners ( Googlebot ) | [различные типы мобильных устройств] (compatible; Mediapartners-Google/2.1 ;+http://www.google.com/bot.html ) |
Google AdSense | Mediapartners-Google Mediapartners ( Googlebot ) | Mediapartners-Google |
Google AdsBot (проверка качества целевой страницы) | AdsBot-Google | AdsBot-Google (+http://www.google.com/adsbot.html ) |
Робот Google для приложений
(сканирование ресурсов для мобильных приложений, подчиняется тем же правилам, что и Google AdsBot)
| AdsBot-Google-Mobile-Apps | AdsBot-Google-Mobile-Apps |
Файл robots.txt
Если в файле robots.txt указаны инструкции для нескольких агентов пользователя, робот Google выполнит наиболее строгие. Если вы хотите, чтобы наши роботы могли сканировать ваш сайт полностью, этот файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к тому или иному контенту, укажите в качестве агента пользователя Googlebot. Так, если вам нужно, чтобы все страницы сайта отображались в результатах поиска Google, а также чтобы на страницах отображались объявления AdSense, не используйте файл robots.txt. Если нужно закрыть некоторые разделы для всех роботов Google, сделайте это для агента пользователя Googlebot. Это приведет к блокировке всех остальных роботов.
Вы также можете указывать специальные правила для определенных агентов пользователя. Предположим, вам нужно, чтобы все страницы вашего сайта отображались в Google Поиске, но при этом хотите запретить сканирование изображений, находящихся в личном каталоге. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot по-прежнему будет иметь доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalРассмотрим другой пример. Вы хотите разместить рекламу на всех страницах, но они при этом не должны отображаться в Google. Для этого заблокируйте доступ к содержанию агенту пользователя Googlebot, но оставьте его доступным агенту пользователя Mediapartners-Google следующим образом:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Метатег robots
Некоторые страницы содержат несколько тегов
meta
, в которых указаны инструкции для различных поисковых роботов. Примеры:<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">
В этом случае Google будет использовать все запрещающие инструкции, а Googlebot выполнит обе директивы:
noindex
и nofollow
.
Комментариев нет :
Отправить комментарий