Skip to main content

Generador y Probador de robots.txt

Genere archivos robots.txt con reglas personalizadas para rastreadores y sitemaps, o pruebe un robots.txt existente para ver si URLs específicas están permitidas o bloqueadas.

Ad (leaderboard)
Rate this tool
0.0 / 5 · 0 ratings

Embed This Calculator

Add this calculator to your website for free. Copy the single line of code below and paste it into your HTML. The calculator auto-resizes to fit your page.

<script src="https://calchammer.com/embed.js" data-calculator="robots-txt-generator" data-category="everyday"></script>
data-theme "light", "dark", or "auto"
data-values Pre-fill inputs, e.g. "amount=1000"
data-max-width Max width, e.g. "600px"
data-border "true" or "false"
Or use an iframe instead
<iframe src="https://calchammer.com/embed/everyday/robots-txt-generator" width="100%" height="500" style="border:none;border-radius:12px;" title="Robots Txt Calculator"></iframe>

Preview

yoursite.com/blog
Robots Txt Calculator auto-resizes here
Ad (in_results)

Entendiendo robots.txt

El archivo robots.txt es el primer archivo que los rastreadores web bien comportados verifican al visitar un sitio. Reside en la raíz de su dominio y usa el Protocolo de Exclusión de Robots para comunicar qué partes de su sitio los rastreadores deben y no deben acceder. Aunque el estándar ha estado en uso desde 1994, Google formalizó su interpretación en una especificación detallada y publicó un analizador de código abierto en 2019. Todo sitio web que quiera controlar cómo los motores de búsqueda rastrean sus páginas necesita un archivo robots.txt correctamente configurado.

El archivo usa una sintaxis sencilla. Cada sección comienza con una directiva User-agent que especifica a qué rastreador aplican las reglas. Un asterisco coincide con todos los rastreadores. Las directivas Disallow listan las rutas que no deben ser rastreadas, mientras que las directivas Allow crean excepciones dentro de reglas de bloqueo más amplias. La directiva Sitemap apunta a los rastreadores hacia su sitemap XML, ayudándoles a descubrir todas las páginas de su sitio. Las líneas que comienzan con un carácter de almohadilla son comentarios y son ignoradas por los rastreadores.

Ad (in_content)

Cómo los Rastreadores Web Usan robots.txt

Cuando un rastreador de motor de búsqueda visita su dominio por primera vez, solicita el archivo /robots.txt antes de rastrear cualquier otra página. Si el archivo existe y contiene reglas para el user agent de ese rastreador, el rastreador sigue esas reglas. Si el archivo no existe o devuelve un 404, el rastreador asume que todas las páginas están permitidas. Si el archivo devuelve un error 5xx del servidor, la mayoría de los rastreadores dejarán de rastrear el sitio temporalmente e intentarán de nuevo más tarde, tratando la imposibilidad de leer robots.txt como una precaución en lugar de un permiso. Google almacena en caché los archivos robots.txt y los actualiza al menos una vez al día.

Reglas Comunes de robots.txt

El caso de uso más común es bloquear rastreadores de áreas de administración, páginas de inicio de sesión, páginas de resultados de búsqueda y contenido duplicado. Por ejemplo, Disallow: /admin/ evita que los rastreadores indexen su panel de administración. Disallow: /search evita que las páginas de resultados de búsqueda del motor aparezcan en los resultados de búsqueda, lo cual sería contenido delgado y duplicado. Bloquear archivos PDF, páginas para imprimir o entornos de staging son otras aplicaciones frecuentes. Es importante recordar que robots.txt controla el rastreo, no la indexación. Una página bloqueada por robots.txt aún puede aparecer en los resultados de búsqueda si otras páginas enlazan a ella.

Rastreo vs. Indexación

Un error común es pensar que robots.txt puede evitar que una página aparezca en los resultados de búsqueda. Bloquear una página en robots.txt impide que los rastreadores accedan a su contenido, pero la URL aún puede aparecer en los resultados de búsqueda si sitios externos enlazan a ella. Google mostrará la URL con una nota indicando que la descripción no está disponible porque la página está bloqueada del rastreo. Para realmente prevenir la indexación, use la meta etiqueta noindex o el encabezado HTTP X-Robots-Tag en su lugar. De forma crítica, la página debe ser rastreable para que Google vea la directiva noindex, así que no bloquee una página en robots.txt si quiere usar noindex en ella.

Probando Su robots.txt

Antes de implementar un archivo robots.txt, siempre pruébelo para asegurarse de que no bloquea accidentalmente páginas importantes. Google Search Console proporciona un probador de robots.txt que le muestra exactamente cómo Googlebot interpreta sus reglas. También puede usar la pestaña de probador en esta herramienta para pegar el contenido de su robots.txt y verificar si URLs específicas están permitidas o bloqueadas. Pruebe sus páginas más importantes, la URL de su sitemap y cualquier página que específicamente quiera bloquear para verificar que las reglas funcionen como se espera.

Preguntas Frecuentes

¿Qué es un archivo robots.txt?

Un archivo de texto plano en la raíz de un sitio web que indica a los rastreadores qué páginas pueden o no acceder. Sigue el Protocolo de Exclusión de Robots usando directivas como User-agent, Disallow, Allow y Sitemap.

¿Dónde se coloca el archivo robots.txt?

Debe estar en la raíz del dominio en la ruta exacta /robots.txt. Cada subdominio necesita su propio archivo. Debe servirse como text/plain en codificación UTF-8.

¿Puede robots.txt bloquear todos los rastreadores?

Usando "User-agent: * / Disallow: /" se bloquean todos los rastreadores bien comportados. Sin embargo, los bots maliciosos pueden ignorarlo. Para una restricción de acceso real, use autenticación del lado del servidor.

¿Google respeta robots.txt?

Sí. Googlebot verifica robots.txt antes de rastrear cualquier URL. Sin embargo, las páginas bloqueadas aún pueden aparecer en los resultados de búsqueda si están enlazadas desde otros sitios. Use noindex para prevenir la indexación.

¿Puedo bloquear páginas específicas con robots.txt?

Sí. Use "Disallow: /ruta/" para directorios o "Disallow: /pagina.html" para páginas específicas. Los comodines como *.pdf$ pueden coincidir con patrones. Las directivas Allow crean excepciones.

Related Calculators

Disclaimer: This calculator is for informational and educational purposes only. Results are estimates and should not be considered professional expert advice. Consult a qualified professional before making decisions based on these calculations. See our full Disclaimer.