<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>(не)?путевые заметки &#187; robots.txt</title>
	<atom:link href="http://chernyshov.kiev.ua/tag/robots-txt/feed/" rel="self" type="application/rss+xml" />
	<link>http://chernyshov.kiev.ua</link>
	<description>Субъективный взгляд на интернет-маркетинг</description>
	<lastBuildDate>Fri, 04 May 2012 03:58:01 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>robots.txt и кеш Google</title>
		<link>http://chernyshov.kiev.ua/news/robots-txt-cache-google/</link>
		<comments>http://chernyshov.kiev.ua/news/robots-txt-cache-google/#comments</comments>
		<pubDate>Tue, 29 Nov 2011 08:15:41 +0000</pubDate>
		<dc:creator>Cherny</dc:creator>
				<category><![CDATA[Новости]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[Яндекс]]></category>

		<guid isPermaLink="false">http://chernyshov.kiev.ua/?p=171</guid>
		<description><![CDATA[Решил перепроверить в принципе уже известные факты о том, как ведут себя Яндекс и Google при запрете страниц в robots.txt. Хотя на самом деле речь в основном пойдет про Google, потому что поведение Яндекса вполне просто и прямолинейно. Есть два варианта: 1) Страница, страницы или разделы уже существуют и проиндексированы, после чего они закрываются от [...]
Смотрите также:<ol>
<li><a href='http://chernyshov.kiev.ua/news/kak-skleit-zerkala-sajta-v-yandekse/' rel='bookmark' title='Как склеить зеркала сайта в Яндексе'>Как склеить зеркала сайта в Яндексе</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/direktivy-v-robots-txt/' rel='bookmark' title='Директивы в robots.txt'>Директивы в robots.txt</a></li>
<li><a href='http://chernyshov.kiev.ua/news/recaptcha-i-google/' rel='bookmark' title='reCaptcha и Google'>reCaptcha и Google</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-full" style="margin-right: 10px;" title="robots.txt и поисковые системы Яндекс и Google" src="http://chernyshov.kiev.ua/wp-content/uploads/2011/11/robotstxt_vs_Google1.jpg" alt="robots.txt и поисковые системы Яндекс и Google" width="350" height="396" />Решил перепроверить в принципе уже известные факты о том, как ведут себя Яндекс и Google при запрете страниц в robots.txt. Хотя на самом деле речь в основном пойдет про Google, потому что поведение Яндекса вполне просто и прямолинейно.</p>
<p>Есть два варианта:</p>
<p>1) Страница, страницы или разделы уже существуют и проиндексированы, после чего они закрываются от индексирования в robots.txt</p>
<p>2) Страница или группа страниц изначально закрыта в robots.txt до возможности их индексации.</p>
<p>Казалось бы второй вариант вообще нет смысла рассматривать, потому что сразу запрещено и «мышь не проскочит, робот не пройдет». Ан, нет &#8211; возможны варианты!</p>
<h2>Запрещение уже проиндексированных страниц сайта</h2>
<p>Не так давно появилась необходимость закрыть от индексации сайт с сотней тысяч проиндексированных страниц. Практически полностью, т.е. из 100 тыс. осталось штук 30-40. Яндекс в этом случае при ближайшем апдейте безусловно удаляет все 999 960 «лишних» страниц, никак специально не уведомляя об этом, т.е. если вебмастер запретил &#8211; он знает, что делает.<span id="more-171"></span></p>
<p>Google в этом случае начинает сигнализировать в <a href="http://www.google.com/webmasters/">Google Webmaster Tools</a>, что “Обнаружена серьезная ошибка&#8230;” и необходимо проверить, не запрещены ли важные страницы сайта в robots.txt. При этом Google не удаляет из индекса запрещенные страницы, а продолжает их показывать, включая и сохраненные копии, просто-напросто сохраненные копии не обновляются, а выводятся по состоянию на те даты, когда индексирование искомых страниц было разрешено.</p>
<p>Формально Google кажется  правым, поскольку после запрета индексации робот не запрашивает сами страницы, а что проиндексировано до запрета, принадлежит индексу Google, а не вебмастеру сайта.</p>
<h2>Запрещение индексации новых страниц</h2>
<p>Проверяется просто: одна или несколько страниц, выложенных в заранее запрещенную для индексации директорию, ставим на появившиеся страницы ссылки на известных Гуглу страницах.</p>
<p>Яндекс вполне предсказуем &#8211; запрещено, значит запрещено.</p>
<p>Google похож на воспитанную собаку, которая котлету не крадет, но старается быть к ней максимально близко. поисковик считает, что раз ссылка есть, то и страница существует и, ни разу не дернув эту страницу с сервера, начинает показывать ссылку на нее в результатах поиска, используя текст ссылки и близлежащий текст  в качестве заголовка.</p>
<p>Смотрите также:</p><ol>
<li><a href='http://chernyshov.kiev.ua/news/kak-skleit-zerkala-sajta-v-yandekse/' rel='bookmark' title='Как склеить зеркала сайта в Яндексе'>Как склеить зеркала сайта в Яндексе</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/direktivy-v-robots-txt/' rel='bookmark' title='Директивы в robots.txt'>Директивы в robots.txt</a></li>
<li><a href='http://chernyshov.kiev.ua/news/recaptcha-i-google/' rel='bookmark' title='reCaptcha и Google'>reCaptcha и Google</a></li>
</ol>]]></content:encoded>
			<wfw:commentRss>http://chernyshov.kiev.ua/news/robots-txt-cache-google/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Как склеить зеркала сайта в Яндексе</title>
		<link>http://chernyshov.kiev.ua/news/kak-skleit-zerkala-sajta-v-yandekse/</link>
		<comments>http://chernyshov.kiev.ua/news/kak-skleit-zerkala-sajta-v-yandekse/#comments</comments>
		<pubDate>Wed, 14 Sep 2011 07:53:10 +0000</pubDate>
		<dc:creator>Cherny</dc:creator>
				<category><![CDATA[Новости]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[зеркала]]></category>
		<category><![CDATA[Яндекс]]></category>

		<guid isPermaLink="false">http://chernyshov.kiev.ua/?p=156</guid>
		<description><![CDATA[Что же нужно сделать для правильной склейки зеркал сайта в Яндексе? Последовательность действий по склейке зеркал будет зависеть от текущей ситуации с зеркалами, ее надо выяснить прежде всего и здесь нам поможет форма добавления нового сайта &#8211; http://webmaster.yandex.ua/addurl.xml. При добавлении сайта в форму делается автоматическая проверка на “зеркальность” и если сайт является не главным зеркалом, [...]
Смотрите также:<ol>
<li><a href='http://chernyshov.kiev.ua/internet/seo-dlya-krupnyx-sajtov/' rel='bookmark' title='SEO для крупных сайтов'>SEO для крупных сайтов</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/direktivy-v-robots-txt/' rel='bookmark' title='Директивы в robots.txt'>Директивы в robots.txt</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/personalnye-dannye-v-poiskovikax/' rel='bookmark' title='Персональные данные в поисковиках'>Персональные данные в поисковиках</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>Что  же нужно сделать для правильной склейки зеркал сайта в Яндексе?  Последовательность действий по склейке зеркал будет зависеть от текущей  ситуации с зеркалами, ее надо выяснить прежде всего и здесь нам поможет  форма добавления нового сайта &#8211; <a href="http://webmaster.yandex.ua/addurl.xml">http://webmaster.yandex.ua/addurl.xml</a>.  При добавлении сайта в форму делается автоматическая проверка на  “зеркальность” и если сайт является не главным зеркалом, то будет  указано главное: “Указанный вами сайт является неглавным зеркалом сайта  notes.webartsolutions.com” (и правда является, сейчас переклеиваю).<br />
Если зеркала никак пока не склеены, то это самый идеальный случай, нужно сделать следующие шаги:</p>
<ol>
<li>Прописать <a href="http://help.yandex.ru/webmaster/?id=996567#996574">директиву Host</a> в robots.txt, где указать главное  зеркало, после всех прочих директив в секции для Яндекса написать  “Host: chernyshov.kiev.ua” без http, просто адрес. Лучше всего это  сделать именно в отдельной секции Яндекса, потому что кроме Яндекса  директиву Host никто не поддерживает.</li>
<li>Максимум  ссылок ставить именно на главное зеркало, при возможности  отредактировать существующие ссылки, чтобы тоже вели на главное зеркало.</li>
<li>Можно  поставить 301-й редирект на главное зеркало, а можно этого не делать,  смотря как индексируются зеркала и сколько посетителей ходит на них. При  установке 301-го редиректа тот сайт, откуда стоит редирект, скорее  всего выпадет из индекса.</li>
<li>Набраться терпения и ждать.</li>
</ol>
<p>В  случае Яндекса 301-м редиректом пользоваться следует осторожно,  поскольку в случае неправильной склейки зеркал, когда главным зеркалом  уже выбран неправильный адрес, 301-й редирект скорее навредит.<br />
В  помощи Яндекса по этому поводу имеется интересная фраза в разделе <a href="http://help.yandex.ru/webmaster/?id=995297#1111867">как  склеить зеркала</a>:</p>
<blockquote><p>С помощью серверного редиректа со страниц старого  домена на соответствующие им страницы нового. Этот способ рекомендуется использовать в том случае, если новый домен не является неглавным зеркалом.</p></blockquote>
<p>На практике получается, что склеивать зеркала с помощью 301-го  редиректа в Яндексе можно только в том случае, когда главным зеркалом  должен стать новый адрес, еще не склеенный ни с чем. Я проверил,  действительно работает: адреса site.ru и www.site.ru были зеркалами, а newsite.ru надо было сделать новым главным зеркалом. Host, редирект, полтора месяца ожидания и &#8211; вуаля!</p>
<p>Если  же зеркала уже склеены, но склеены неправильно и их надо переклеить или  свапнуть, то тут надо немного изменений и очень много&#8230; терпения:</p>
<ol>
<li>Выключаем редирект, если он был.</li>
<li>Прописываем директиву Host в robots.txt, где указываем главное зеркало.</li>
<li>По возможности ставим новые ссылки на главное зеркало и меняем на старое.</li>
<li>Ждем</li>
</ol>
<p>Ждать придется несколько месяцев так точно, поэтому склейку зеркал лучше не откладывать.</p>
<p>Смотрите также:</p><ol>
<li><a href='http://chernyshov.kiev.ua/internet/seo-dlya-krupnyx-sajtov/' rel='bookmark' title='SEO для крупных сайтов'>SEO для крупных сайтов</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/direktivy-v-robots-txt/' rel='bookmark' title='Директивы в robots.txt'>Директивы в robots.txt</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/personalnye-dannye-v-poiskovikax/' rel='bookmark' title='Персональные данные в поисковиках'>Персональные данные в поисковиках</a></li>
</ol>]]></content:encoded>
			<wfw:commentRss>http://chernyshov.kiev.ua/news/kak-skleit-zerkala-sajta-v-yandekse/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Персональные данные в поисковиках</title>
		<link>http://chernyshov.kiev.ua/internet/personalnye-dannye-v-poiskovikax/</link>
		<comments>http://chernyshov.kiev.ua/internet/personalnye-dannye-v-poiskovikax/#comments</comments>
		<pubDate>Tue, 26 Jul 2011 08:54:26 +0000</pubDate>
		<dc:creator>Cherny</dc:creator>
				<category><![CDATA[Интернет]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[поисковые системы]]></category>
		<category><![CDATA[Яндекс]]></category>

		<guid isPermaLink="false">http://chernyshov.kiev.ua/?p=154</guid>
		<description><![CDATA[Дважды за последние пару недель возникали информповоды по поводу индексации поисковыми системами, а вернее речь шла практически только о Яндексе, совсем не публичной информации. Многие при этом склонны обвинять именно поисковики в таком нехорошем поведении, хотя поисковики вполне корректно делают свою работу: можно проиндексировать контент &#8211; индексируют. На самом деле разгоняй надо делать админам, архитекторам [...]
Смотрите также:<ol>
<li><a href='http://chernyshov.kiev.ua/internet/bitva-za-kontent/' rel='bookmark' title='Битва за контент'>Битва за контент</a></li>
<li><a href='http://chernyshov.kiev.ua/reklama/izmeryat-veb-kak-tv/' rel='bookmark' title='Измерять Веб как ТВ'>Измерять Веб как ТВ</a></li>
<li><a href='http://chernyshov.kiev.ua/marketing/prosnulsya-potyanulsya-zaloginilsya/' rel='bookmark' title='Проснулся, потянулся, залогинился'>Проснулся, потянулся, залогинился</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>Дважды за последние пару недель возникали информповоды по поводу индексации поисковыми системами, а вернее речь шла практически только о Яндексе, совсем не публичной информации. Многие при этом склонны обвинять именно поисковики в таком нехорошем поведении, хотя поисковики вполне корректно делают свою работу: можно проиндексировать контент &#8211; индексируют.</p>
<p>На самом деле разгоняй надо делать админам, архитекторам и ПМам, которые вообще допустили доступность такого контента в интернете. По хорошему доступ к бек-енду должен открываться буквально по IP-адресам только непосредственно работающим с админкой людям, запароленный доступ и https обязательны. Никто не отменял VPN, кстати.</p>
<p>А закрыть доступ к разделу или незапароленной админке в robots.txt &#8211; это все равно, что дать незнакомому человеку ключи от квартиры и указать пальцем на дверь. Любой даже не хакер, а пользователь с уровнем выше среднего, пройдется по таким &#8220;закрытым&#8221; разделам пылесосом wget&#8217;а и будут потом писать уже не про поисковики, а чт-то вроде:</p>
<blockquote><p>&#8230;в руки хакеров попало н-дцать тысяч пользовательских записей из ряда интернет-магазинов и сервисов&#8230;</p></blockquote>
<p>В общем, кажущаяся простота развертывания готовых сервисов и модулей различных CMS и прочих готовых решений, а также изменяющий реальность подход к публичности личной информации все равно не снижает требований к ответственным специалистам.</p>
<p>Смотрите также:</p><ol>
<li><a href='http://chernyshov.kiev.ua/internet/bitva-za-kontent/' rel='bookmark' title='Битва за контент'>Битва за контент</a></li>
<li><a href='http://chernyshov.kiev.ua/reklama/izmeryat-veb-kak-tv/' rel='bookmark' title='Измерять Веб как ТВ'>Измерять Веб как ТВ</a></li>
<li><a href='http://chernyshov.kiev.ua/marketing/prosnulsya-potyanulsya-zaloginilsya/' rel='bookmark' title='Проснулся, потянулся, залогинился'>Проснулся, потянулся, залогинился</a></li>
</ol>]]></content:encoded>
			<wfw:commentRss>http://chernyshov.kiev.ua/internet/personalnye-dannye-v-poiskovikax/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Директивы в robots.txt</title>
		<link>http://chernyshov.kiev.ua/internet/direktivy-v-robots-txt/</link>
		<comments>http://chernyshov.kiev.ua/internet/direktivy-v-robots-txt/#comments</comments>
		<pubDate>Fri, 07 May 2010 09:33:14 +0000</pubDate>
		<dc:creator>Cherny</dc:creator>
				<category><![CDATA[Интернет]]></category>
		<category><![CDATA[robots.txt]]></category>

		<guid isPermaLink="false">http://notes.webartsolutions.com/2010/05/direktivy-v-robots-txt/</guid>
		<description><![CDATA[Минимум три года не отслеживал изменения в применении и директивах robots.txt. За это время и заметки в архиве блога о robots.txt и статья несколько устарели. Из справки Яндекса можно судить об изменениях: обрабатываются спецсимволы “*” и “?”, директива ограничения частоты запросов Crawl-Delay, впервые появившаяся у Yahoo в 2006-м году, как и Allow, а также незнакомая [...]
Смотрите также:<ol>
<li><a href='http://chernyshov.kiev.ua/internet/prezentaciya-idem-onlajn/' rel='bookmark' title='Презентация &laquo;Идем онлайн&raquo;'>Презентация &laquo;Идем онлайн&raquo;</a></li>
<li><a href='http://chernyshov.kiev.ua/news/medijnaya-reklama-formaty-ukrainy-i-zarubezhya/' rel='bookmark' title='Медийная реклама &#8211; форматы Украины и зарубежья'>Медийная реклама &#8211; форматы Украины и зарубежья</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/seo-dlya-krupnyx-sajtov/' rel='bookmark' title='SEO для крупных сайтов'>SEO для крупных сайтов</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>Минимум три года не отслеживал изменения в применении и директивах robots.txt. За это время и заметки в архиве блога <a href="http://notes.webartsolutions.com/archives/seo/robotstxt/">о robots.txt</a> и <a href="http://webartsolutions.com/articles/doklad-robotstxt.html">статья</a> несколько устарели. Из <a href="http://help.yandex.ru/webmaster/?id=996567">справки Яндекса</a> можно судить об изменениях: обрабатываются спецсимволы “*” и “?”, директива ограничения частоты запросов Crawl-Delay, <a href="http://notes.webartsolutions.com/archives/000251.html">впервые появившаяся</a> у Yahoo в 2006-м году, как и Allow, а также незнакомая мне ранее Clean-param.</p>
<p>Насчет обработки спецсимволов для замены последовательностей и директивы Crawl-Delay &#8211; все вроде бы понятно, “звездочку” всегда использовали для замены последовательностей символов, ограничение частоты запросов, особенно для крупных сайтов тоже вещь полезная. А вот Allow и Clean-param вроде и понятны, но есть нюансы. В частности то, что в последовательности Allow/Disallow в рамках одной секции учитывается первая, если несколько директив могут применяться к определенному URL. Особенно пугает Allow: без ничего, запрещающая индексацию всего сайта (аналог Disallow: /). В случае Clean-Param хотелось бы понять, как обрабатываются ссылки на такие страницы и рассматриваются ли страницы как дубли?</p>
<p>А вообще интересно до чего дошел прогресс!</p>
<p>Смотрите также:</p><ol>
<li><a href='http://chernyshov.kiev.ua/internet/prezentaciya-idem-onlajn/' rel='bookmark' title='Презентация &laquo;Идем онлайн&raquo;'>Презентация &laquo;Идем онлайн&raquo;</a></li>
<li><a href='http://chernyshov.kiev.ua/news/medijnaya-reklama-formaty-ukrainy-i-zarubezhya/' rel='bookmark' title='Медийная реклама &#8211; форматы Украины и зарубежья'>Медийная реклама &#8211; форматы Украины и зарубежья</a></li>
<li><a href='http://chernyshov.kiev.ua/internet/seo-dlya-krupnyx-sajtov/' rel='bookmark' title='SEO для крупных сайтов'>SEO для крупных сайтов</a></li>
</ol>]]></content:encoded>
			<wfw:commentRss>http://chernyshov.kiev.ua/internet/direktivy-v-robots-txt/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

