Наш сайт проиндексирован и казалось бы что еще нужно? Однажды обнаруживаешь, что проиндексировались абсолютно не нужные страницы, такие как вход и регистрация пользователя, лист стилей, формат pdf и мало ли что еще увидит поисковик... Вот тут и понимаешь важность файла робот.
Урок 15. Создание файла robots.txt
В этом уроке попробуем ответить на следующие вопросы:
Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта.
большие robots.txt (более 256 Кб) считаются полностью разрешающими
Регистр написания имени файла - только нижний.
При копировании файла с помощью ftp-клиента, его нужно настроить на текстовый режим обмена файлами.
Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow».
Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».
Напишем себе шпаргалку о записях в директивах.
Обязательная директива «User-agent»
Запись «User-agent» содержит в себе название поискового робота.
Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «*», выглядит это так:
User-agent: *
Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:
Если сайт открыт для индексирования весь, то нужно писать так:
Disallow:
или
Allow: /
Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:
Disallow: /links.html
Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:
Disallow: /noybot/my.html
Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:
Disallow: /cgi-bin/
Disallow: /forum/
Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.
Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.
Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».
Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:
Disallow: /my
В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*»(звездочка - любая последовательность символов) и «$» (доллар - окончание строки).
Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:
Disallow: *.htm$
Еще пример запрета индексации файлов PDF для гугл
User-agent: Googlebot
Disallow: *.pdf$
Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:
User-agent: *
Disallow: /pdf/
Директива «Host»
Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.
Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host»понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.
Записывается следующим образом:
Host: www.site.ru
На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.
Например:
User-Agent: * # Все поисковый системы
Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки
Host: www.mainsite.ru # Главное зеркало
User-Agent: Googlebot # Личный блок для гугла
Disallow: /admin/ # Запрет директории гуглом
Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.
Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.
Какие страницы сайта лучше закрывать от индексации поисковиками с помощью файла робот.
Для чего нужно закрывать страницы от индексации?
Очень просто, поисковый робот походит по сайту, проиндексирует все, что ему вздумается и уйдет. А вы потом с удивлением замечаете, что в выдачу попали страницы с технической информацией, а большая информативная статья не проиндексирована. Устал робот и не дошел до важной страницы вашего сайта.
Что ж можно закрыть от роботов, дабы они зря не тратили время на ненужные для выдачи страницы сайта?
Можно закрыть от индексации админ. раздел сайта, директории /images/ с графической информацией. Хотя учтите, что файл робот может прочитать любой желающий, а знаете что будет, если написать «не смотреть, здесь секрет»? Вот то-то... А поиск по картинкам в различных поисковых системах? Тоже посетителей привлекает.
Если вы владелец интернет-магазина, то можно закрыть служебные страницы с осуществлением покупки.
А чтобы не привлекать внимание к файлам, стандартные названия которых говорят о многом, можно создать специальную папку и хранить их в ней. А в файле robots.txt запретить индексацию только этой папки.
Примеры файла robots txt.
# - означает начало комментариев
User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам начинающимся с '/cgi-bin'
Использование спецсимволов "*" и "$"
User-agent: Yandex
Disallow: /cgi-bin/*.aspx
# запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'
Директива Host
#Если www.mysite.ru главное зеркало сайта, то robots.txt
#для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.mysite.ru
Полезные ссылки и информация о файле robots.
Перечень названий поисковых роботов можно посмотреть в специальных разделах поисковиков «помощь веб-мастеру».