Skip to main content

Gerador e Testador de robots.txt

Gere arquivos robots.txt com regras personalizadas para crawlers e sitemaps, ou teste um robots.txt existente para verificar se URLs especificas estao permitidas ou bloqueadas.

Ad (leaderboard)
Rate this tool
0.0 / 5 · 0 ratings

Embed This Calculator

Add this calculator to your website for free. Copy the single line of code below and paste it into your HTML. The calculator auto-resizes to fit your page.

<script src="https://calchammer.com/embed.js" data-calculator="robots-txt-generator" data-category="everyday"></script>
data-theme "light", "dark", or "auto"
data-values Pre-fill inputs, e.g. "amount=1000"
data-max-width Max width, e.g. "600px"
data-border "true" or "false"
Or use an iframe instead
<iframe src="https://calchammer.com/embed/everyday/robots-txt-generator" width="100%" height="500" style="border:none;border-radius:12px;" title="Robots Txt Calculator"></iframe>

Preview

yoursite.com/blog
Robots Txt Calculator auto-resizes here
Ad (in_results)

Entendendo o robots.txt

O arquivo robots.txt e o primeiro arquivo que crawlers bem comportados verificam ao visitar um site. Ele reside na raiz do seu dominio e usa o Robots Exclusion Protocol para comunicar quais partes do seu site os crawlers devem e nao devem acessar. Embora o padrao esteja em uso desde 1994, o Google formalizou sua interpretacao em uma especificacao detalhada e lancou um parser de codigo aberto em 2019. Todo site que deseja controlar como mecanismos de busca rastreiam suas paginas precisa de um arquivo robots.txt devidamente configurado.

O arquivo usa uma sintaxe direta. Cada secao comeca com uma diretiva User-agent especificando a qual crawler as regras se aplicam. Um asterisco corresponde a todos os crawlers. Diretivas Disallow listam caminhos que nao devem ser rastreados, enquanto diretivas Allow criam excecoes dentro de regras de bloqueio mais amplas. A diretiva Sitemap aponta os crawlers para o seu sitemap XML, ajudando-os a descobrir todas as paginas do seu site. Linhas que comecam com o caractere cerquilha sao comentarios e sao ignoradas pelos crawlers.

Ad (in_content)

Como os Crawlers Usam o robots.txt

Quando um crawler de mecanismo de busca visita seu dominio pela primeira vez, ele solicita o arquivo /robots.txt antes de rastrear qualquer outra pagina. Se o arquivo existir e contiver regras para o user agent daquele crawler, o crawler segue essas regras. Se o arquivo nao existir ou retornar um 404, o crawler assume que todas as paginas estao permitidas. Se o arquivo retornar um erro 5xx, a maioria dos crawlers para temporariamente de rastrear o site e tenta novamente mais tarde, tratando a incapacidade de ler o robots.txt como precaucao em vez de permissao. O Google armazena em cache os arquivos robots.txt e os atualiza pelo menos uma vez por dia.

Regras Comuns do robots.txt

O caso de uso mais comum e bloquear crawlers de areas administrativas, paginas de login, paginas de resultados de busca e conteudo duplicado. Por exemplo, Disallow: /admin/ impede que crawlers indexem seu painel de administracao. Disallow: /search impede que paginas de resultados de busca do site aparecam nos resultados de busca, o que seria conteudo fino e duplicado. Bloquear arquivos PDF, paginas de impressao ou ambientes de staging sao outras aplicacoes frequentes. E importante lembrar que robots.txt controla o rastreamento, nao a indexacao. Uma pagina bloqueada pelo robots.txt ainda pode aparecer nos resultados de busca se outras paginas linkarem para ela.

Rastreamento vs. Indexacao

Um equivoco comum e que robots.txt pode impedir uma pagina de aparecer nos resultados de busca. Bloquear uma pagina no robots.txt impede os crawlers de acessar seu conteudo, mas a URL ainda pode aparecer nos resultados de busca se sites externos linkarem para ela. O Google mostrara a URL com uma nota de que a descricao nao esta disponivel porque a pagina esta bloqueada para rastreamento. Para realmente impedir a indexacao, use a meta tag noindex ou o cabecalho HTTP X-Robots-Tag. Criticamente, a pagina deve ser rastreavel para que o Google veja a diretiva noindex, entao nao bloqueie uma pagina no robots.txt se voce quiser usar noindex nela.

Testando Seu robots.txt

Antes de implantar um arquivo robots.txt, sempre teste-o para garantir que nao bloqueie acidentalmente paginas importantes. O Google Search Console fornece um testador de robots.txt que mostra exatamente como o Googlebot interpreta suas regras. Voce tambem pode usar a aba de testador nesta ferramenta para colar o conteudo do seu robots.txt e verificar se URLs especificas estao permitidas ou bloqueadas. Teste suas paginas mais importantes, a URL do sitemap e quaisquer paginas que voce deseja bloquear especificamente para verificar se as regras estao funcionando conforme o esperado.

Perguntas Frequentes

O que e um arquivo robots.txt?

Um arquivo de texto simples na raiz de um site que informa aos crawlers quais paginas eles podem ou nao acessar. Ele segue o Robots Exclusion Protocol usando diretivas como User-agent, Disallow, Allow e Sitemap.

Onde colocar o arquivo robots.txt?

Deve estar na raiz do dominio no caminho exato /robots.txt. Cada subdominio precisa de seu proprio arquivo. Deve ser servido como text/plain com codificacao UTF-8.

O robots.txt pode bloquear todos os crawlers?

Usar "User-agent: * / Disallow: /" bloqueia todos os crawlers bem comportados. Porem, bots maliciosos podem ignora-lo. Para restricao real de acesso, use autenticacao no servidor.

O Google respeita o robots.txt?

Sim. O Googlebot verifica o robots.txt antes de rastrear qualquer URL. No entanto, paginas bloqueadas ainda podem aparecer nos resultados de busca se linkadas de outros sites. Use noindex para impedir a indexacao.

Posso bloquear paginas especificas com robots.txt?

Sim. Use "Disallow: /caminho/" para diretorios ou "Disallow: /pagina.html" para paginas especificas. Coringas como *.pdf$ podem corresponder a padroes. Diretivas Allow criam excecoes.

Related Calculators

Disclaimer: This calculator is for informational and educational purposes only. Results are estimates and should not be considered professional expert advice. Consult a qualified professional before making decisions based on these calculations. See our full Disclaimer.