robots.txt и кеш Google

Опубликовано в : 29-11-2011 | Автор : Cherny | В рубрике : Новости

1

robots.txt и поисковые системы Яндекс и GoogleРешил перепроверить в принципе уже известные факты о том, как ведут себя Яндекс и Google при запрете страниц в robots.txt. Хотя на самом деле речь в основном пойдет про Google, потому что поведение Яндекса вполне просто и прямолинейно.

Есть два варианта:

1) Страница, страницы или разделы уже существуют и проиндексированы, после чего они закрываются от индексирования в robots.txt

2) Страница или группа страниц изначально закрыта в robots.txt до возможности их индексации.

Казалось бы второй вариант вообще нет смысла рассматривать, потому что сразу запрещено и «мышь не проскочит, робот не пройдет». Ан, нет – возможны варианты!

Запрещение уже проиндексированных страниц сайта

Не так давно появилась необходимость закрыть от индексации сайт с сотней тысяч проиндексированных страниц. Практически полностью, т.е. из 100 тыс. осталось штук 30-40. Яндекс в этом случае при ближайшем апдейте безусловно удаляет все 999 960 «лишних» страниц, никак специально не уведомляя об этом, т.е. если вебмастер запретил – он знает, что делает.

Поисковики сдают позиции социальным сетям в UK

Опубликовано в : 09-06-2010 | Автор : Cherny | В рубрике : Исследования

2

Сборная поисковиков против сборной социальных сетей. По количеству визитов, а не аудитории.

Согласно данным сервиса Experian Hitwise в мае 2010 впервые на рынке Великобритании количество визитов пользователей в социальные сети и сервисы превысило количество визитов на сайты поисковых систем:

Динамика визитов британских пользователей на сайты социальных сетей и поисковых систем

За год доля визитов на сайты социальных сетей увеличилась с 10% до 11,88%, , а доля визитов на сайты поисковых систем уменьшилась с 12% до 11,33%.

При этом самым посещаемым сайтом в Британии остается Google. Facebook генерирует 55% “социального” трафика, что втрое больше трафика Youtube. А Twitter, самый быстрорастущий сервис два последних года, вышел на 3 место среди социальных сетей, оставив позади бывших лидеров – Myspace и Bebo.

Что касается рекламы, тот же Facebook в марте текущего года сгенерировал 21 млрд. рекламных показов только жителям Великобритании, что составило 30% всех рекламных показов в этом месяце.

via

reCaptcha и Google

Опубликовано в : 19-09-2009 | Автор : Cherny | В рубрике : Новости

3

“И человека отфильтруем, и текст распознаем”

16-го сентября появилось сообщение о покупке Гуглем компании reCAPTCHA. Особенность сервиса купленной компании – комплексный подход. На изображении выводится два слова, с помощью первого слова отфильтровывается человек, затем отфильтрованный человек используется для помощи в распознавани отсканированного текста.
Интересно, что в Google уже использовали “человеческую” помощь для обработки данных. В одной  моей старой записи три года назад я писал об игре Google Image Labeler. Там игроки получают очки, называя объекты на изображениях, а Гугл в свою очередь мог связывать изображения с соответствующими им определениями. Вот только информация об использовании данных игры в поиске по изобрадениям мне не попадалась.