Linux

Файл robots.txt

Файл robots.txt - это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов.

Инструкции в данном файле запрещают к индексации некоторые разделы или страницы на Вашем сайте, указывают на правильное «зеркалирование» домена, они рекомендуют поисковым роботам соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Разберем основные записи файла robots.txt:

#User-agent - задает имя поискового агента (yandex, google, rambler, * - для всех)

User-agent: *

#Host - задает доменное имя Вашего сайта

Host: www.yoursite.ru

#Инструкции для роботов - текст после знака "#" и до конца строки комментарий

#Disallow - задает запрет индексации конкретного раздела сайта

Disallow: /cgi-bin/

Disallow: /admin/

#Allow - разрешает индексацию

Allow: /

#Crawl-delay - задает таймаут в секундах, с которым поисковый робот закачивает страницы с Вашего сервера

Crawl-delay: 4.5

Пример файла robots.txt:

User-agent: *

Host: www.yoursite.ru

Sitemap: http://www.yoursite.ru/sitemap.xml

 

Disallow: /cgi-bin/

Disallow: /images/

Disallow: /awstats/

 

Crawl-delay: 4.5

 

Итак, есть бесплатный ресурс для генерации файла: Создать Robots.txt

Администратор

Хороший ученик видит ошибки своего учителя, но молчит о них почтительно, ибо самые эти ошибки служат ему в пользу и наставляют его на прямой путь