Googlebot

Googlebot



Googlebot é o “spider” utilizado pela Google para “rastrear” websites pela Internet. Indexa não apenas páginas web (HTML), como também extrai informação de ficheiros PDF, PS, XLS, DOC e alguns mais.

A frequência com que o Googlebot acede a um website depende do Pagerank deste. Quanto maior for o Pagerank, mais o Googlebot acederá assiduamente às suas páginas.

Por exemplo, é possível verificar que os websites com PR10 (o valor mais alto), como yahoo.com ou usatoday.com, foram rastreados pelo Googlebot ontem ou mesmo hoje, ao passo que outros websites de baixo Pagerank foram rastreados há já várias semanas.

Para verificar se o Googlebot acedeu ao nosso website, vamos ver os logs do nosso servidor. Entre eles, devemos observar se há registos de acessos nos quais apareça “googlebot”. Geralmente aparecerá o nome do servidor, como por exemplo crawl1.googlebot.com, crawl2.googlebot.com, etc.

O Googlebot tentará aceder, como fazem a maioria dos robots dos motores de busca, ao ficheiro “robots.txt”. Neste arquivo deverá haver uma mapa do website onde não queremos que entre nem o Googlebot nem os restantes spiders. Para conhecer mais sobre o “robots.txt”, existe um bom recurso: www.robotstxt.org.

Uma vez que o Googlebot tenha rastreado a nossa página, seguirá as ligações que nela encontre.

Se quiser que o Googlebot indexe a sua página web, apenas é necessário que outra página tenha uma hiperligação para a sua. Se isso não acontecer, sempre poderáadicionar directamente o seu URL.

Além do Googlebot, existe ainda outro chamado Freshbot, que rastreia com maior frequência os websites com as noticias “mais frescas”.



Sem comentários

Escrever um comentário

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.