- /
- /
- /
Robots.txt
Определение
Файл robots.txt по своей сути – это сборник инструкций для роботов, составленный консилиумом W3C зимой 1994 г. Почти все роботы-поисковики на добровольных началах внедрили в работу инструкции robots.txt.
В документе перечисляются стандарты, которые определяют индексацию некоторых документов, каталогов, разделов или страниц на любом онлайн-ресурсе.
Как используется robots
Robots.txt для ресурса является важным элементом оптимизации поиска. Например, в рамках SEO-продвижения данный файл используется для того чтобы вычленить из индексации ресурсы, на которых отсутствует полезный для пользователей контент. Маленькие сайты также могут пользоваться отдельными его блоками, все зависит от целей, поставленных перед программистом.
Настройка robots.txt
Программист должен грамотно настроить файл под каждый сайт, что в будущем исключит попадание персональных данных в результаты выдачи поисковиков. Роботы проверенных систем, таких как Гугл, Яндекс и Рамблер, в своей деятельности учитывают принятые стандарты. Остальные поисковики могут игнорировать их, что снижает качество поисковой выдачи.
Директива User-agent дает указание конкретной поисковой системы. Сразу после нее формируется сама команда, прописывающая условия для определенного робота. Пример выполнения перевода строки представлен ниже.
User-agent: Yandex
Disallow: /*utm_
Allow: /*id=
Можно заметить, что тут была применения запрещающая команда Disallow (присвоено значение «/*utm_»). Благодаря этой процедуре производится закрытие страниц, на которых расположены метки UTM. Также можно наблюдать, что указания формируются блоками, которые содержат информацию для определенного робота или для всех сразу («*»).
Настраивая robots.txt, важно учесть порядок и сортировку указаний, особенно при одновременном использовании нескольких команд, таких как «Disallow» и «Allow». Последняя директива является разрешающей и, соответственно, полной противоположностью «Disallow», накладывающей запрет.
Приведем пример применения нескольких директив в одном документе.
User-agent: *
Allow: /blog/page
Disallow: /blog
Выше поисковику запрещается индексация ресурсов, которые начинаются с /blog. При этом одновременно допустима индексация тех, которые начинаются с /blog/page.
Что такое синтаксис robots.txt
Для того чтобы грамотно работать с robots.txt, следует посмотреть порядок формирования его синтаксиса. Ниже приводится список классических правил.
- Любая директива всегда начинается с отдельной строки.
- В рамках строки должна находиться только одна команда.
- Пробел не может стоять в начале строчки.
- Параметр команды также должен быть указан в одной строке.
- Параметры директив нельзя брать в кавычки, не следует применять и закрывающие знаки (точка с запятой).
- Команда в файле должна быть указана в стандартном формате.
- Пустой перевод строки воспринимается как завершение команды User-agent.
- В файле могут быть сделаны комментарии, но предварительно проставляется знак решетка.
- Команда «Disallow: », если содержит пустое значение, то приравнивается к разрешающей команде «Allow: /».
- В перечисленных выше директивах можно прописывать только один параметр.
- В самом названии файла с инструкциями не используются строчные буквы. Например, распространенное написание Robots и ROBOTS некорректно по правилам составления синтаксиса.
- Названия команд и параметров строчными буквами некорректные. Изначально robots.txt нечувствителен к определенному регистру, но чувствительными могут оставаться названия директорий и других документов.
- Если параметр команды является директорией, то в его имени перед названием необходимо проставить знак «слеш» (Disallow: /category).
- Если перечислены директивы «User-agent», но при этом пустой перевод не выполнен, то все команды кроме первой могут игнорироваться поисковиками.
- Файлы с инстуркциями от 32 Кб по умолчанию считаются разрешающими и приравниваются к команде «Disallow: ».
- Запрещено применение знаков национальных алфавитов.
- Если robots.txt недоступен по любой причине, то по умолчанию считается полностью разрешающим.
- Пустой robots.txt считается по умолчанию разрешающим.
Проверка синтаксиса
Для того чтобы оценить корректность работы, построение и синтаксис можно использовать онлайн-ресурсы. Некоторые крупные поисковики, такие как Гугл и Яндекс, реализовали собственные сервисы, которые позволяют комплексно проанализировать сайт по всем веб-параметрам. В проверку обязательно входит и анализ инструкций.
Так, проверку этого файла можно запустить в Яндекс.Вебмастере и аналогичном сервисе в Google по ссылке https: // www.google.com/webmasters/tools/siteoverview?hl=ru.
Дополнительно в интернете представлены различные онлайн-валидаторы.
Запрет индексации: Disallow
Вышеуказанная команда применяется в robots.txt наиболее часто. Ее функцией является запрет индексации любого ресурса, учитывая параметры, который был прописаны в этой команды.
User-agent: *
Disallow: /
Выше видим пример участка кода, задающего запрет индексации сайта для любого робота-поисковика.
Разрешение индексации: Allow
Указанная разрешающая команда является антагонистом директивы Disallow. Тем не менее, она имеет с ней очень схожий синтаксис.
Ниже приведен участок кода, запрещающий индексацию, но при этом делается исключение для определенных страниц.
User-agent: *
Disallow: /
Allow: /page
Как вы можете наблюдать, индексация в примере разрешена для страниц, в начале которых размещается фраза /page. То есть любые другие ресурсы без выполнения этого условия проиндексированы не будут.
Учтите, что указывая одну лишь директиву allow: / в роботсе, т.е. по-логике разрешая индексировать весь сайт, вы можете очень сильно ухудшить индексацию вашего сайта.
Главное зеркало ресурса: Host
С помощью команды поисковик Яндекса разглядит главное зеркало любого портала. Интересно, что из всех распространенных поисковиков Host «понимает» только Яндекс.
Директива применяется в случае, когда ресурс размещается на нескольких доменах, например: newsite.ru и newsite.com. Также она позволяет определить приоритет между такими именами сайта: newsite.ru и www. newsite.ru.
Директива Host входит в блок другой директивы «User-agent: Yandex». При этом предпочтительный или основной адрес сайта необходимо прописывать без «http://».
Поисковику Яндекса можно показать главное зеркало, что позволит оптимизировать выдачу страниц пользователям.
Карта сайта: sitemap
Благодаря команде в robots.txt можно задать конкретное место хранения файла карты сайта (именуется как sitemap.xml).
Рассмотрим пример участка кода, где задан адрес карты ресурса.
User-agent: *
Disallow: /page
Sitemap: http:// www.newsite.ru/sitemap.xml
Поисковик использует указанный, чтобы начать индексацию страницы или ресурса в целом.
Выводы
Файл robots.txt является эффективным инструментом, который позволяет взаимодействовать с поисковыми системами и оптимизировать SEO-продвижение.