O que é e como gerar o robots.txt ?

O que é e como gerar o robots.txt ?

Regras, sintaxe e dicas para gerar o robots.txt

A Internet está cheia de robôs! Eles vasculham a Internet, de página em página, para descobrir onde está o conteúdo. E os seus líderes são os mecanismos de busca.

Esses robozinhos vão vasculhar o seu site, de arquivo em arquivo, para garantir que todo o seu conteúdo seja indexado pelos buscadores. A não ser que……você configure o seu robots.txt!

Já viu essa entrada no seu log de acessos?

66.249.65.88 – – [11/Sep/2015:11:24:28 -0300] “GET /robots.txt HTTP/1.1″ 200 66 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Esse é o robô do Google, buscando o seu conteúdo. Mas veja bem, os robôs são educados. Antes de sair vasculhando ou indexando tudo, eles vão solicitar um arquivo de controle (chamado….robots.txt!). Neste arquivo estão definidas as regras de indexação.

O que pode ser indexado? O que não pode?

Coloque no robots.txt e as regras serão respeitadas.

No robots.txt temos alguns “comandos” principais.

User-agent

Quais clientes ou robôs devem seguir as regras? Geralmente usa-se o comando a seguir para que TODOS os robôs sigam as regras:

User-agent: *

Disallow

Quais páginas ou arquivos não devem ser indexados? Por exemplo:

Disallow: /wp-admin/

O comando acima evita que a área de login administrativo do wordpress seja indexado.

Allow

O que deve ser indexado?

Por definição, TODOS os diretórios e arquivos são permitidos. Porém, se você deu um disallow em um diretório, mas deseja permitir a indexação de algum  arquivo ou subdiretório em específico (dentro do disallow), então use o comando allow. Por exemplo:

Disallow: /admin

Allow: /admin/suporte

Sitemap

Este comando diz onde fica o sitemap do seu site. O sitemap é um arquivo listando o conteúdo do seu site de forma organizada e classificada. Falaremos sobre o sitemap em um próximo artigo.

Use da seguinte maneira:

Sitemap: http://www.seusite.com/sitemap.xml

Geradores de robots.txt

Se você quiser gerar rapidamente um arquivo robots.txt, use um gerador online.

Tente este:

http://www.robotsgenerator.com/

Conclusão

Ter um arquivo robots.txt é básico e faz a diferença, ainda mais quando em conjunto com um arquivo de sitemap. Invista alguns minutos para “matar” essa!