google robot

Aprende a otimizar o robots.txt sem complicações



Hoje venho falar sobre um tema que está muito relacionado com o White Hat SEO, mas que sai um pouco dos temas mais gerais, como por exemplo, a criação de bons conteúdos, ter uma boa presença na Internet, etc.

Isso já tem sido muito discutido e hoje venho apresentar um artigo com técnicas menos conhecidas ou que não são tão divulgados, como é o caso da optimização do arquivo robots.txt.

Alguns sabem perfeitamente o que é, mas outros estarão a ouvir falar dele pela primeira vez. Alguns já o tentaram otimizar com dicas que encontraram pela Internet, outros já desesperaram a tentar fazer essa optimização. Com o artigo de hoje pretendo fazer um guia completo e o mais simples possível para otimizar este arquivo que muitas vezes passa despercebido quando falamos em melhorar o SEO da nossa página web.

Mas antes de mais nada, vamos começar pelo início.

 

O que é o robots.txt e como deve ser criado?

O arquivo robots.txt serve para indicar ao Google quais são as URLs que não queres indexar ou rastrear. Por exemplo, porque não são relevantes para os leitores ou porque têm pouco conteúdo.

google robotPara criar este arquivo abre o bloco de notas do Windows e criar um ficheiro com o nome “robots.txt”. Basta apenas isso!

É no robots.txt que vamos definir o que deve ser ou não indexado pelo Google. Vamos sempre começar com esta linha:

User-agent: *

Esta primeira linha serve para o Google saber quais os robots que têm permissão para rastrear a tua página. Os principais robots/rastreadores são o Googlebot (para resultados web), Googlebot-Image (exclusivamente para resultados do Google Imagens) e Googlebot-Mobile (para resultados em mobile). Existem outros, mas para mim estes são os mais importantes. Se queres conhecer todos, podes visitar esta página do Google.

Apesar disso, no exemplo coloquei o asterisco * porque desta forma vamos permitir que todos os robots possam rastrear a nossa página.

De seguida vamos colocar todos os microformatos, ou seja, vamos dizer ao Google o que queremos ou não que seja rastreado ou indexado.

Vamos ver um por um.

 

Disallow: /

O microformato Disallow faz com que o Google não passe pela página indicada e que também não a deve indexar. Pode ser aplicado de duas formas:

  • Se colocamos “/”, como no exemplo acima, será aplicado a todas as URLs. Ou seja, nenhuma página interna do nosso site será rastreada ou indexada.
  • Podemos indicar que não sejam rastreadas determinadas páginas da seguinte forma “Disallow: /url-determinada/”

 

Por exemplo, se tivermos este robots.txt:

robots.txt

E depois pesquisarmos pela pasta /wp-admin/ no Google:

otimizar robots.txt

Não iremos obter nenhum resultado. Funciona! Agora podes ter páginas “secretas” no teu website.

 

Outro exemplo.

Se tivermos isto:

User-agents: *

Disallow: /

Estaremos a dizer a todos os robots do Google (User-agents: *) para não rastrearem ou indexarem nenhuma URL (Disallow: /), pelo que a página desapareceria completamente dos resultados de pesquisa. Logicamente que isto não é muito comum, mas se por alguma razão for necessário fazer isso, aqui está a solução para esse caso.

Tudo entendido até agora? Vamos passar ao seguinte microformato!

 

Allow: /receita-de-chocolate/

Este microformato cria uma excepção no Disallow anterior. Imaginemos que a nossa página tem a seguinte arquitetura web:

  • Inicio > Receitas > Receita de chocolate

Por alguma razão, decidimos não indexar a página de “Receitas” com Disallow: /receitas/, mas queremos fazer uma excepção porque /receitas/receita-de-chocolate/ já queremos que seja indexada. Nesse caso o robots.txt ficaria assim:

User-agents: *

Disallow: /receitas/

Allow: /receitas/receita-de-chocolate/

Desta forma, não será indexada nenhuma URL de /receitas/ excepto /receita-de-chocolate/.

 

Sitemap: http://oteudominio.com/sitemap.xml

Tal como devemos ter um ficheiro robots.txt, também devemos ter um ficheiro sitemap.xml para que o Google possa rastrear facilmente o nosso conteúdo. Pode ser criado facilmente no WordPress com o plugin “XML Sitemap”.

Dentro do robots.txt podemos indicar qual é o sitemap da nossa página web, tal como referi no exemplo.

 

Outros

Temos outros microformatos como “noindex” (não indexa página mas rastreia as ligações para passar autoridade) e “nofollow” (em principio não tem em conta os links).

Em vez de colocar estes microformatos no bloco de notas do robots.txt podemos colocá-lo dentro do HTML da URL interna com o seguinte código:

<meta name=“robots” content=“noindex, nofollow”>

Nesse exemplo, o Google não indexaria o conteúdo, nem rastrearia as ligações.

<meta name=“robots” content=“noindex”>

Neste segundo exemplo, o Google não indexaria o conteúdo (portanto, não seria apresentado nos resultados de pesquisa) mas iria rastrear as ligações existentes dentro da página para passar autoridade.

<meta name=“robots” content=“nofollow”>

Por último, encontramos este terceiro caso em que a página seria indexada mas não seriam rastreadas as ligações.

 

Como carregar o robots.txt e ver os erros?

Uma vez pronto o nosso robots.txt é hora de o carregar para que o Google o tenha em conta. Para isso vamos até à Search Console do Google e seleccionamos o nosso site. Se não o tivermos registado devemos adicionar uma nova propriedade com o botão vermelho no canto superior direito.

Já dentro do nosso site na Search Console do Google, vamos a:

  • Rastreamento > Testar robots.txt

Uma vez ali, podemos abrir novamente o nosso bloco de notas, ou se já tivermos um robots.txt, podemos editá-lo em tempo real.

google search console

No fundo da página iremos encontrar os erros e as advertências, embora não devas ter nenhum se seguiste devidamente as minhas dicas.

E aqui acaba este tutorial sobre como configurar correctamente o robots.txt sem morrer a tentar… Espero ter deixado tudo esclarecido sobre este tema.

Agora que já sabes como configurar o robots.txt, toca a dar corda aos sapatos para que o Google não fique assim.

google

Por hoje ficamos por aqui. Tenham todos um bom resto de dia!



Sem comentários

Escrever um comentário

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.