Gerador e Testador de robots.txt

Q: O que e um arquivo robots.txt?

Um arquivo robots.txt e um arquivo de texto simples colocado na raiz de um site que informa aos crawlers da web quais paginas ou secoes do site eles podem ou nao acessar. Ele segue o Robots Exclusion Protocol, um padrao em uso desde 1994. Crawlers de mecanismos de busca como Googlebot, Bingbot e outros verificam este arquivo antes de rastrear um site. O arquivo usa diretivas simples como User-agent, Disallow, Allow e Sitemap para comunicar regras aos crawlers.

Q: Onde colocar o arquivo robots.txt?

O arquivo robots.txt deve ser colocado no diretorio raiz do seu site para que seja acessivel em https://exemplo.com/robots.txt. Ele deve ser servido no caminho exato /robots.txt no dominio. Coloca-lo em um subdiretorio ou usar um nome de arquivo diferente nao funcionara. O arquivo deve ser um arquivo de texto simples codificado em UTF-8 e servido com o tipo de conteudo text/plain. Cada subdominio precisa de seu proprio arquivo robots.txt.

Q: O robots.txt pode bloquear todos os crawlers?

Sim. Para bloquear todos os crawlers de todas as paginas, use 'User-agent: *' seguido de 'Disallow: /' no seu arquivo robots.txt. Isso informa a todos os crawlers que nenhuma pagina do site deve ser rastreada. No entanto, robots.txt e consultivo, nao obrigatorio. Crawlers bem comportados como Googlebot e Bingbot o respeitarao, mas bots maliciosos podem ignora-lo. Para restricao real de acesso, use autenticacao no servidor ou regras de firewall. Note tambem que bloquear crawlers nao remove paginas dos resultados de busca se elas estiverem linkadas de outros sites.

Q: O Google respeita o robots.txt?

Sim, o Google respeita as diretivas do robots.txt. O Googlebot verifica o arquivo robots.txt antes de rastrear qualquer URL de um site. Se uma pagina estiver bloqueada, o Googlebot nao a rastreara. Porem, se outros sites linkarem para uma pagina bloqueada, o Google ainda pode indexar a URL (mostrando-a nos resultados de busca com uma nota de que a descricao nao esta disponivel) porque robots.txt impede o rastreamento, nao a indexacao. Para impedir a indexacao, use uma meta tag noindex ou o cabecalho HTTP X-Robots-Tag.

Q: Posso bloquear paginas especificas com robots.txt?

Sim. Use uma diretiva Disallow especifica com o caminho que deseja bloquear. Por exemplo, 'Disallow: /privado/' bloqueia todas as URLs que comecam com /privado/. 'Disallow: /pagina.html' bloqueia aquela pagina especifica. Voce pode usar o caractere coringa * para corresponder a padroes, como 'Disallow: /*.pdf$' para bloquear todos os arquivos PDF. Voce tambem pode usar diretivas Allow para criar excecoes dentro de uma regra Disallow mais ampla, como bloquear /privado/ mas permitir /privado/pagina-publica.

Gere arquivos robots.txt com regras personalizadas para crawlers e sitemaps, ou teste um robots.txt existente para verificar se URLs especificas estao permitidas ou bloqueadas.

Entendendo o robots.txt

O arquivo robots.txt e o primeiro arquivo que crawlers bem comportados verificam ao visitar um site. Ele reside na raiz do seu dominio e usa o Robots Exclusion Protocol para comunicar quais partes do seu site os crawlers devem e nao devem acessar. Embora o padrao esteja em uso desde 1994, o Google formalizou sua interpretacao em uma especificacao detalhada e lancou um parser de codigo aberto em 2019. Todo site que deseja controlar como mecanismos de busca rastreiam suas paginas precisa de um arquivo robots.txt devidamente configurado.

O arquivo usa uma sintaxe direta. Cada secao comeca com uma diretiva User-agent especificando a qual crawler as regras se aplicam. Um asterisco corresponde a todos os crawlers. Diretivas Disallow listam caminhos que nao devem ser rastreados, enquanto diretivas Allow criam excecoes dentro de regras de bloqueio mais amplas. A diretiva Sitemap aponta os crawlers para o seu sitemap XML, ajudando-os a descobrir todas as paginas do seu site. Linhas que comecam com o caractere cerquilha sao comentarios e sao ignoradas pelos crawlers.

Como os Crawlers Usam o robots.txt

Quando um crawler de mecanismo de busca visita seu dominio pela primeira vez, ele solicita o arquivo /robots.txt antes de rastrear qualquer outra pagina. Se o arquivo existir e contiver regras para o user agent daquele crawler, o crawler segue essas regras. Se o arquivo nao existir ou retornar um 404, o crawler assume que todas as paginas estao permitidas. Se o arquivo retornar um erro 5xx, a maioria dos crawlers para temporariamente de rastrear o site e tenta novamente mais tarde, tratando a incapacidade de ler o robots.txt como precaucao em vez de permissao. O Google armazena em cache os arquivos robots.txt e os atualiza pelo menos uma vez por dia.

Regras Comuns do robots.txt

O caso de uso mais comum e bloquear crawlers de areas administrativas, paginas de login, paginas de resultados de busca e conteudo duplicado. Por exemplo, Disallow: /admin/ impede que crawlers indexem seu painel de administracao. Disallow: /search impede que paginas de resultados de busca do site aparecam nos resultados de busca, o que seria conteudo fino e duplicado. Bloquear arquivos PDF, paginas de impressao ou ambientes de staging sao outras aplicacoes frequentes. E importante lembrar que robots.txt controla o rastreamento, nao a indexacao. Uma pagina bloqueada pelo robots.txt ainda pode aparecer nos resultados de busca se outras paginas linkarem para ela.

Rastreamento vs. Indexacao

Um equivoco comum e que robots.txt pode impedir uma pagina de aparecer nos resultados de busca. Bloquear uma pagina no robots.txt impede os crawlers de acessar seu conteudo, mas a URL ainda pode aparecer nos resultados de busca se sites externos linkarem para ela. O Google mostrara a URL com uma nota de que a descricao nao esta disponivel porque a pagina esta bloqueada para rastreamento. Para realmente impedir a indexacao, use a meta tag noindex ou o cabecalho HTTP X-Robots-Tag. Criticamente, a pagina deve ser rastreavel para que o Google veja a diretiva noindex, entao nao bloqueie uma pagina no robots.txt se voce quiser usar noindex nela.

Testando Seu robots.txt

Antes de implantar um arquivo robots.txt, sempre teste-o para garantir que nao bloqueie acidentalmente paginas importantes. O Google Search Console fornece um testador de robots.txt que mostra exatamente como o Googlebot interpreta suas regras. Voce tambem pode usar a aba de testador nesta ferramenta para colar o conteudo do seu robots.txt e verificar se URLs especificas estao permitidas ou bloqueadas. Teste suas paginas mais importantes, a URL do sitemap e quaisquer paginas que voce deseja bloquear especificamente para verificar se as regras estao funcionando conforme o esperado.

Perguntas Frequentes

O que e um arquivo robots.txt?

Um arquivo de texto simples na raiz de um site que informa aos crawlers quais paginas eles podem ou nao acessar. Ele segue o Robots Exclusion Protocol usando diretivas como User-agent, Disallow, Allow e Sitemap.

Onde colocar o arquivo robots.txt?

Deve estar na raiz do dominio no caminho exato /robots.txt. Cada subdominio precisa de seu proprio arquivo. Deve ser servido como text/plain com codificacao UTF-8.

O robots.txt pode bloquear todos os crawlers?

Usar "User-agent: * / Disallow: /" bloqueia todos os crawlers bem comportados. Porem, bots maliciosos podem ignora-lo. Para restricao real de acesso, use autenticacao no servidor.

O Google respeita o robots.txt?

Sim. O Googlebot verifica o robots.txt antes de rastrear qualquer URL. No entanto, paginas bloqueadas ainda podem aparecer nos resultados de busca se linkadas de outros sites. Use noindex para impedir a indexacao.

Posso bloquear paginas especificas com robots.txt?

Sim. Use "Disallow: /caminho/" para diretorios ou "Disallow: /pagina.html" para paginas especificas. Coringas como *.pdf$ podem corresponder a padroes. Diretivas Allow criam excecoes.

Embed This

Entendendo o robots.txt

Como os Crawlers Usam o robots.txt

Regras Comuns do robots.txt

Rastreamento vs. Indexacao

Testando Seu robots.txt

Perguntas Frequentes

O que e um arquivo robots.txt?

Onde colocar o arquivo robots.txt?

O robots.txt pode bloquear todos os crawlers?

O Google respeita o robots.txt?

Posso bloquear paginas especificas com robots.txt?

Related Calculators

.htaccess Generator

Nginx Config Generator

CSP Header Builder

You Might Also Need

Meta Tag Generator

Schema Markup Generator

.htaccess Generator

Recommended Reading

The Rule of 72 is wrong. Here's why that's fine, and the exact rule when it isn't.

15-Year vs 30-Year Mortgage: Which Saves You More?

How to Calculate Your Monthly Mortgage Payment (Step by Step)