robots.txt и кеш Google
Опубликовано в : 29-11-2011 | Автор : Cherny | В рубрике : Новости
1
Решил перепроверить в принципе уже известные факты о том, как ведут себя Яндекс и Google при запрете страниц в robots.txt. Хотя на самом деле речь в основном пойдет про Google, потому что поведение Яндекса вполне просто и прямолинейно.
Есть два варианта:
1) Страница, страницы или разделы уже существуют и проиндексированы, после чего они закрываются от индексирования в robots.txt
2) Страница или группа страниц изначально закрыта в robots.txt до возможности их индексации.
Казалось бы второй вариант вообще нет смысла рассматривать, потому что сразу запрещено и «мышь не проскочит, робот не пройдет». Ан, нет – возможны варианты!
Запрещение уже проиндексированных страниц сайта
Не так давно появилась необходимость закрыть от индексации сайт с сотней тысяч проиндексированных страниц. Практически полностью, т.е. из 100 тыс. осталось штук 30-40. Яндекс в этом случае при ближайшем апдейте безусловно удаляет все 999 960 «лишних» страниц, никак специально не уведомляя об этом, т.е. если вебмастер запретил – он знает, что делает.


