Далее на странице...
На этой странице пойдет речь о файле robots.txt. Любому веб-разработчику обязательно знать, что это за файл и как его правильно составить, так как все роботы поисковых систем при посещении сайта в первую очередь обращаются к файлу robots.txt.
robots.txt - это текстовый файл с расширением .txt и его можно создать в редакторе Блокнот. Имя файла должно состоять из строчных букв.
Для отдельно взятого сайта может быть создан только один файл robots.txt.
Единственно правильным размещением файла robots.txt является корневая директория сайта.
Информация, заключённая в фале robots.txt, задаёт роботам поисковых систем правила индексирования сайта.
Далее рассмотрим директивы, согласно которым эти правила устанавливаются. Директивы User-agent и Disallow являются обязательными при составлении файла robots.txt. После каждой директивы User-agent должна следовать хотя бы одна инструкция Disallow.
Директива User-agent
Директива User-agent используется для указания имени робота, к которому применяется правило.
Отсутствие значения для директивы User-agent не допустимо.
Перед каждой директивой User-agent следует вставлять пустой перевод строки.
Примеры использования директивы User-agent.
Правило применимо для всех роботов поисковой системы Яндекс
User-agent: Yandex
Символ # служит для составления комментариев. Следующий за этим символом текст не воспринимается ботами до первого переноса строки.
# Регистр в имени бота значения не имеет
Правило применимо для основного робота поисковой системы Google
User-Agent: Googlebot
Правило применимо для поисковой системы Rambler
User-agent: StackRambler
Не допустимое использование директивы User-agent: пустая строка
User-agent:
Правило применимо для всех роботов поисковых систем
User-agent: *
В файле robots.txt может быть только одна запись для всех роботов User-agent: *.
Читайте в сервисе «Яндекс.Помощь» раздел «Индексирование сайта - Robots.txt» о нюансах в применении значений * и Yandex.
Директива Disallow
После директивы User-agent с указанием имени поискового робота следует директива Disallow, которая указывает, какие каталоги и файлы запрещены для индексации. Как правило, это папки с изображениями, скриптами, шрифтами, php-блоками, а также файлы со стилями, файлы-обработчики форм и иная служебная и личная информация.
В качестве значения директивы Disallow указывают относительный путь к каталогу/файлу, который не следует индексировать.
Директива Disallow является обязательной, поэтому, если нет необходимости что-либо запрещать, её следует указать пустой.
Примеры использования директивы Disallow.
Файл index.html, расположенный в каталоге temp, запрещён для индексации для всех поисковых роботов
User-agent: *
Disallow: temp/index.html
Для поискового робота Yandex всё разрешено (строка с директивой Disallow пуста)
Disallow:
Для поискового робота Yandex всё запрещено, так как стоит слэш «/»
Disallow: /
Каталог img закрыт от индексации для поискового робота Yandex
Disallow: /img/
Для поискового робота Yandex блокирован доступ ко всем страницам, начинающимся с /img
User-agent: Yandex
Disallow: /img
Каталог img и файл style.css закрыты от индексации для всех поисковых ботов
User-agent: *
Disallow: /img/
Disallow: /style.css
Каталог img закрыт от индексации для всех поисковых роботов, а файлы style.css и about.php закрыты только для поискового робота Yandex
User-agent: *
Disallow: /img/
User-agent: Yandex
Disallow: /style.css
Disallow: /about.php
Директива Allow
Директива Allow разрешает доступ к указанным файлам и папкам и противоположна действию инструкции Disallow.
Пример использования директивы Allow.
Каталог seo закрыт от индексации, а файл index.php в папке seo разрешается индексировать поисковым роботом Yandex
User-agent: Yandex
Disallow: /seo/
Allow: /seo/index.php
Обратить внимание
Для каждого поискового робота следует использовать свою директиву User-agent.
Для запрета индексации отдельной папки или файла следует использовать свою директиву Disallow. Таким образом, число инструкций Disallow не ограничено. Это же правило относится к директиве Allow.
Не следует помещать все файлы или каталоги, запрещённые или разрешённые для индексации, в одну инструкцию.
Это не правильная запись:
Disallow: /seo/ /img/ /map.php
Это правильная запись:
Disallow: /seo/
Disallow: /img/
Disallow: /map.php
Директива Sitemap
Директива Sitemap используется для указания пути к файлу sitemap.xml, который служит для описания структуры сайта.
Если на сайте используется несколько файлов sitemap.xml, то с помощью директивы Sitemap следует указать путь к каждому из них (для каждого из файлов нужна своя директива).
Директиву Sitemap удобно размещать в конце файла robots.txt, но она может располагаться в любом месте.
Пример использования директивы Sitemap.
User-agent: Yandex
Disallow: /seo/
Allow: /seo/index.php
User-agent: *
Disallow: /img/
Sitemap: https://komp36.ru/sitemap_1.xml
Sitemap: https://komp36.ru/sitemap_2.xml
Директивы Host и Crawl-delay
Директиву Host, которая служила для указания главного зеркала сайта, в скором времени заменит редирект 301.
Директива Crawl-delay отвечала за то, как часто поисковый робот может обращаться к сайту.
С 22 февраля 2018 года Яндекс не учитывает директиву Crawl-delay.
Вместо нее в сервисе Яндекс.Вебмастер в разделе «Индексирование» появился инструмент «Скорость обхода», где автоматически, с учетом нагрузки на сервер подбирается максимальная скорость обхода конкретно для каждого сайта.
О причинах отказа от директивы Crawl-delay и появлении сервиса «Скорость обхода» читайте здесь.