robots.txt

11.09.2012

Администраторы сайтов частенько задаются вопросом: «Почему поисковые роботы редко заходят на мой ресурс?».

Всякий сайт, который находится поисковыми системами, и у которого в HTTP-заголовке будет статус «200 Ok», индексирется. Влиять meta-тегами на поисковые роботы сейчас неактуально, ни один нормальный поисковик не обращает ни малейшего внимания на теги устаревания контента.

Чтобы поисковые машины чаще проходили по сайту,важно, создать файл robots.txt в корне сервера и карту сайта со ссылками на все страницы. При этом ссылка на карту сайта (КС) должна быть с главной страницы. Также при добавлении очередной страницы нужно отображать сие в новостях со ссылкой на нее. К тому же необходимо чаще обновлять сам сайт и страницы на нем, и, в заключение все страницы сайта должны отдавать Last-Modified документов.

Файл robots.txt должен называться именно так , ибо поисковые системы не будут обращать на него внимание. Так же, расположение этого файла на сервере должно быть следующим:

http://www.artpix.ru/robots.txt

Первичную информацию об индексации сайта поисковые машины получают из robots.txt, где описывается то, что не следует индексировать. То бишь робот получает информацию о страницах, которые не нужно индексировать, а все остальные индексирует по мере заходов на сайт. Чем выше статус вашего сайта для поисковика, тем больше страниц робот проиндексирует за раз.
Чтобы запретить индексацию отдельных страниц сайта для всех роботов, нужно прописать в robots.txt:

User-agent: *
Disallow: /

Чтобы запретить индексацию отдельных страниц сайта, роботу Рамблера нужно написать:

User-agent: StackRambler
Disallow: /

В этих случаях знак «/» надо заменить на путь к странице вашего сайта. Так, если хотите запретить индексацию страницы http://artpix.ru/about/ и всего, что лежит глубже нее на сервере, то нужно заменить знак «/» на «/about/». Если оставить только слеш, то сайт просто выпадет из индекса.

Надо помнить, что файл robots.txt доступен к чтению всем пользователями, поэтому не следует прописывать в него пути к админкам или панелям управления на сайте.Поисковые системы и так не индексируют страницы,где требуются логин и пароль, а во-вторых, если на неё никто не ссылается, то страница никогда и не будет найдена поисковиками.

По картинкам вопрос отдельный. Некоторые поисковые системы иногда индексируют отдельные картинки как страницы, поэтому, если вы не хотите, чтобы элементы дизайна вашего сайта оказались в индексе, то лучше прописать путь к «ненужным» для индекса картинкам в robots.txt.