Entendendo o robots.txt
O arquivo robots.txt e o primeiro arquivo que crawlers bem comportados verificam ao visitar um site. Ele reside na raiz do seu dominio e usa o Robots Exclusion Protocol para comunicar quais partes do seu site os crawlers devem e nao devem acessar. Embora o padrao esteja em uso desde 1994, o Google formalizou sua interpretacao em uma especificacao detalhada e lancou um parser de codigo aberto em 2019. Todo site que deseja controlar como mecanismos de busca rastreiam suas paginas precisa de um arquivo robots.txt devidamente configurado.
O arquivo usa uma sintaxe direta. Cada secao comeca com uma diretiva User-agent especificando a qual crawler as regras se aplicam. Um asterisco corresponde a todos os crawlers. Diretivas Disallow listam caminhos que nao devem ser rastreados, enquanto diretivas Allow criam excecoes dentro de regras de bloqueio mais amplas. A diretiva Sitemap aponta os crawlers para o seu sitemap XML, ajudando-os a descobrir todas as paginas do seu site. Linhas que comecam com o caractere cerquilha sao comentarios e sao ignoradas pelos crawlers.
Como os Crawlers Usam o robots.txt
Quando um crawler de mecanismo de busca visita seu dominio pela primeira vez, ele solicita o arquivo /robots.txt antes de rastrear qualquer outra pagina. Se o arquivo existir e contiver regras para o user agent daquele crawler, o crawler segue essas regras. Se o arquivo nao existir ou retornar um 404, o crawler assume que todas as paginas estao permitidas. Se o arquivo retornar um erro 5xx, a maioria dos crawlers para temporariamente de rastrear o site e tenta novamente mais tarde, tratando a incapacidade de ler o robots.txt como precaucao em vez de permissao. O Google armazena em cache os arquivos robots.txt e os atualiza pelo menos uma vez por dia.
Regras Comuns do robots.txt
O caso de uso mais comum e bloquear crawlers de areas administrativas, paginas de login, paginas de resultados de busca e conteudo duplicado. Por exemplo, Disallow: /admin/ impede que crawlers indexem seu painel de administracao. Disallow: /search impede que paginas de resultados de busca do site aparecam nos resultados de busca, o que seria conteudo fino e duplicado. Bloquear arquivos PDF, paginas de impressao ou ambientes de staging sao outras aplicacoes frequentes. E importante lembrar que robots.txt controla o rastreamento, nao a indexacao. Uma pagina bloqueada pelo robots.txt ainda pode aparecer nos resultados de busca se outras paginas linkarem para ela.
Rastreamento vs. Indexacao
Um equivoco comum e que robots.txt pode impedir uma pagina de aparecer nos resultados de busca. Bloquear uma pagina no robots.txt impede os crawlers de acessar seu conteudo, mas a URL ainda pode aparecer nos resultados de busca se sites externos linkarem para ela. O Google mostrara a URL com uma nota de que a descricao nao esta disponivel porque a pagina esta bloqueada para rastreamento. Para realmente impedir a indexacao, use a meta tag noindex ou o cabecalho HTTP X-Robots-Tag. Criticamente, a pagina deve ser rastreavel para que o Google veja a diretiva noindex, entao nao bloqueie uma pagina no robots.txt se voce quiser usar noindex nela.
Testando Seu robots.txt
Antes de implantar um arquivo robots.txt, sempre teste-o para garantir que nao bloqueie acidentalmente paginas importantes. O Google Search Console fornece um testador de robots.txt que mostra exatamente como o Googlebot interpreta suas regras. Voce tambem pode usar a aba de testador nesta ferramenta para colar o conteudo do seu robots.txt e verificar se URLs especificas estao permitidas ou bloqueadas. Teste suas paginas mais importantes, a URL do sitemap e quaisquer paginas que voce deseja bloquear especificamente para verificar se as regras estao funcionando conforme o esperado.
Perguntas Frequentes
O que e um arquivo robots.txt?
Um arquivo de texto simples na raiz de um site que informa aos crawlers quais paginas eles podem ou nao acessar. Ele segue o Robots Exclusion Protocol usando diretivas como User-agent, Disallow, Allow e Sitemap.
Onde colocar o arquivo robots.txt?
Deve estar na raiz do dominio no caminho exato /robots.txt. Cada subdominio precisa de seu proprio arquivo. Deve ser servido como text/plain com codificacao UTF-8.
O robots.txt pode bloquear todos os crawlers?
Usar "User-agent: * / Disallow: /" bloqueia todos os crawlers bem comportados. Porem, bots maliciosos podem ignora-lo. Para restricao real de acesso, use autenticacao no servidor.
O Google respeita o robots.txt?
Sim. O Googlebot verifica o robots.txt antes de rastrear qualquer URL. No entanto, paginas bloqueadas ainda podem aparecer nos resultados de busca se linkadas de outros sites. Use noindex para impedir a indexacao.
Posso bloquear paginas especificas com robots.txt?
Sim. Use "Disallow: /caminho/" para diretorios ou "Disallow: /pagina.html" para paginas especificas. Coringas como *.pdf$ podem corresponder a padroes. Diretivas Allow criam excecoes.
Save your results & get weekly tips
Get calculator tips, formula guides, and financial insights delivered weekly. Join 10,000+ readers.
No spam. Unsubscribe anytime.