Директива Host в Robots.txt

 

Robots.txt – это специальный файл для регулировки процесса индексации сайта. Он расположен в корне сайта. Загрузка этого файла может быть выполнена через FTP. Также существует возможность его создания непосредственно в файловом менеджере у хостера. После того, как файл создан, следует убедиться в его доступности по ссылке доменное имя/robots.txt.

В данном файле хранятся инструкции для индексирующего робота поисковых систем. При внесении изменений в robots.txt возможно исключение страницы из поиска, указание пути к sitemap, выбор главного зеркала и т.д. Если в директивах этого файла будут ошибки, сайт может быть исключен из индекса. Поэтому к работе с robots следует отнестись с максимальной ответственностью. От этого файла будет зависеть трафик из поисковых систем.

Что такое директива Host?

host в robots txt

В файле robots есть 2 обязательные директивы – host и sitemap. Директива host в robots предназначена для обозначение главного зеркала сайта. Она дает понять какое зеркало интернет-ресурса (с www или без) является основным. Данная директива учитывается практически всеми поисковыми системами.

Если оптимизатор не укажет зеркало через host, он получит сообщение в Яндекс.Вебмастер с требованием добавить эту директиву. В случае ее отсутствия поисковая система выберет зеркало автоматически.

Если владелец сайта не знает главного зеркала, ему нужно вбить в поиск Яндекса адрес своего веб-ресурса и просмотреть поисковую выдачу. Если перед доменным именем будет указано www, главное зеркало с www. Если интернет-ресурс еще не прошел индексацию, оптимизатору нужно перейти в раздел «Переезд сайта» в сервисе Вебмастер от Яндекса. Там можно указать зеркало самостоятельно.

Особенности оформления директивы host

host директива

Эта директива имеет определенную форму написания:

host: [пробел] [домен с или без www] [пробел]

При указании директивы необходимо учесть 2 правила. Во-первых, в host должен быть https-протокол для поддержки шифрования. Он необходим в том случае, если доступ осуществляется по защищенному каналу. Если используется протокол http, то его можно не указывать. Во-вторых, доменное имя не должно являться IP-адресом. При этом оно должно соответствовать RFC 952.

Для правильного считывания сведений при обработке файла robots директива host должна быть прописана в группе после слов user-agent. Также следует знать, что поисковые роботы могут использовать данную директиву вне зависимости от того, как она прописана (в соответствии с правилами или нет). Такая возможность обусловлена тем, что host является межсекционной директивой.