Generador y Probador de robots.txt

Q: ¿Qué es un archivo robots.txt?

Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de un sitio web que indica a los rastreadores web qué páginas o secciones del sitio tienen permitido o no acceder. Sigue el Protocolo de Exclusión de Robots, un estándar en uso desde 1994. Los rastreadores de motores de búsqueda como Googlebot, Bingbot y otros verifican este archivo antes de rastrear un sitio. El archivo usa directivas simples como User-agent, Disallow, Allow y Sitemap para comunicar reglas a los rastreadores.

Q: ¿Dónde se coloca el archivo robots.txt?

El archivo robots.txt debe colocarse en el directorio raíz de su sitio web para que sea accesible en https://ejemplo.com/robots.txt. Debe servirse en la ruta exacta /robots.txt del dominio. Colocarlo en un subdirectorio o usar un nombre de archivo diferente no funcionará. El archivo debe ser un archivo de texto plano codificado en UTF-8 y servido con un tipo de contenido text/plain. Cada subdominio necesita su propio archivo robots.txt.

Q: ¿Puede robots.txt bloquear todos los rastreadores?

Sí. Para bloquear todos los rastreadores de todas las páginas, use 'User-agent: *' seguido de 'Disallow: /' en su archivo robots.txt. Esto le dice a cada rastreador que ninguna página del sitio debe ser rastreada. Sin embargo, robots.txt es consultivo, no ejecutable. Los rastreadores bien comportados como Googlebot y Bingbot lo respetarán, pero los bots maliciosos pueden ignorarlo. Para una restricción de acceso real, use autenticación del lado del servidor o reglas de firewall. También tenga en cuenta que bloquear rastreadores no elimina páginas de los resultados de búsqueda si están enlazadas desde otros sitios.

Q: ¿Google respeta robots.txt?

Sí, Google respeta las directivas de robots.txt. Googlebot verifica el archivo robots.txt antes de rastrear cualquier URL de un sitio. Si una página está bloqueada, Googlebot no la rastreará. Sin embargo, si otros sitios enlazan a una página bloqueada, Google aún puede indexar la URL (mostrándola en los resultados de búsqueda con una nota de que la descripción no está disponible) porque robots.txt previene el rastreo, no la indexación. Para prevenir la indexación, use una meta etiqueta noindex o un encabezado HTTP X-Robots-Tag en su lugar.

Q: ¿Puedo bloquear páginas específicas con robots.txt?

Sí. Use una directiva Disallow específica con la ruta que desea bloquear. Por ejemplo, 'Disallow: /privado/' bloquea todas las URLs que comienzan con /privado/. 'Disallow: /pagina.html' bloquea esa página exacta. Puede usar el carácter comodín * para coincidir con patrones, como 'Disallow: /*.pdf$' para bloquear todos los archivos PDF. También puede usar directivas Allow para crear excepciones dentro de una regla Disallow más amplia, como bloquear /privado/ pero permitir /privado/pagina-publica.

Genere archivos robots.txt con reglas personalizadas para rastreadores y sitemaps, o pruebe un robots.txt existente para ver si URLs específicas están permitidas o bloqueadas.

Entendiendo robots.txt

El archivo robots.txt es el primer archivo que los rastreadores web bien comportados verifican al visitar un sitio. Reside en la raíz de su dominio y usa el Protocolo de Exclusión de Robots para comunicar qué partes de su sitio los rastreadores deben y no deben acceder. Aunque el estándar ha estado en uso desde 1994, Google formalizó su interpretación en una especificación detallada y publicó un analizador de código abierto en 2019. Todo sitio web que quiera controlar cómo los motores de búsqueda rastrean sus páginas necesita un archivo robots.txt correctamente configurado.

El archivo usa una sintaxis sencilla. Cada sección comienza con una directiva User-agent que especifica a qué rastreador aplican las reglas. Un asterisco coincide con todos los rastreadores. Las directivas Disallow listan las rutas que no deben ser rastreadas, mientras que las directivas Allow crean excepciones dentro de reglas de bloqueo más amplias. La directiva Sitemap apunta a los rastreadores hacia su sitemap XML, ayudándoles a descubrir todas las páginas de su sitio. Las líneas que comienzan con un carácter de almohadilla son comentarios y son ignoradas por los rastreadores.

Cómo los Rastreadores Web Usan robots.txt

Cuando un rastreador de motor de búsqueda visita su dominio por primera vez, solicita el archivo /robots.txt antes de rastrear cualquier otra página. Si el archivo existe y contiene reglas para el user agent de ese rastreador, el rastreador sigue esas reglas. Si el archivo no existe o devuelve un 404, el rastreador asume que todas las páginas están permitidas. Si el archivo devuelve un error 5xx del servidor, la mayoría de los rastreadores dejarán de rastrear el sitio temporalmente e intentarán de nuevo más tarde, tratando la imposibilidad de leer robots.txt como una precaución en lugar de un permiso. Google almacena en caché los archivos robots.txt y los actualiza al menos una vez al día.

Reglas Comunes de robots.txt

El caso de uso más común es bloquear rastreadores de áreas de administración, páginas de inicio de sesión, páginas de resultados de búsqueda y contenido duplicado. Por ejemplo, Disallow: /admin/ evita que los rastreadores indexen su panel de administración. Disallow: /search evita que las páginas de resultados de búsqueda del motor aparezcan en los resultados de búsqueda, lo cual sería contenido delgado y duplicado. Bloquear archivos PDF, páginas para imprimir o entornos de staging son otras aplicaciones frecuentes. Es importante recordar que robots.txt controla el rastreo, no la indexación. Una página bloqueada por robots.txt aún puede aparecer en los resultados de búsqueda si otras páginas enlazan a ella.

Rastreo vs. Indexación

Un error común es pensar que robots.txt puede evitar que una página aparezca en los resultados de búsqueda. Bloquear una página en robots.txt impide que los rastreadores accedan a su contenido, pero la URL aún puede aparecer en los resultados de búsqueda si sitios externos enlazan a ella. Google mostrará la URL con una nota indicando que la descripción no está disponible porque la página está bloqueada del rastreo. Para realmente prevenir la indexación, use la meta etiqueta noindex o el encabezado HTTP X-Robots-Tag en su lugar. De forma crítica, la página debe ser rastreable para que Google vea la directiva noindex, así que no bloquee una página en robots.txt si quiere usar noindex en ella.

Probando Su robots.txt

Antes de implementar un archivo robots.txt, siempre pruébelo para asegurarse de que no bloquea accidentalmente páginas importantes. Google Search Console proporciona un probador de robots.txt que le muestra exactamente cómo Googlebot interpreta sus reglas. También puede usar la pestaña de probador en esta herramienta para pegar el contenido de su robots.txt y verificar si URLs específicas están permitidas o bloqueadas. Pruebe sus páginas más importantes, la URL de su sitemap y cualquier página que específicamente quiera bloquear para verificar que las reglas funcionen como se espera.

Preguntas Frecuentes

¿Qué es un archivo robots.txt?

Un archivo de texto plano en la raíz de un sitio web que indica a los rastreadores qué páginas pueden o no acceder. Sigue el Protocolo de Exclusión de Robots usando directivas como User-agent, Disallow, Allow y Sitemap.

¿Dónde se coloca el archivo robots.txt?

Debe estar en la raíz del dominio en la ruta exacta /robots.txt. Cada subdominio necesita su propio archivo. Debe servirse como text/plain en codificación UTF-8.

¿Puede robots.txt bloquear todos los rastreadores?

Usando "User-agent: * / Disallow: /" se bloquean todos los rastreadores bien comportados. Sin embargo, los bots maliciosos pueden ignorarlo. Para una restricción de acceso real, use autenticación del lado del servidor.

¿Google respeta robots.txt?

Sí. Googlebot verifica robots.txt antes de rastrear cualquier URL. Sin embargo, las páginas bloqueadas aún pueden aparecer en los resultados de búsqueda si están enlazadas desde otros sitios. Use noindex para prevenir la indexación.

¿Puedo bloquear páginas específicas con robots.txt?

Sí. Use "Disallow: /ruta/" para directorios o "Disallow: /pagina.html" para páginas específicas. Los comodines como *.pdf$ pueden coincidir con patrones. Las directivas Allow crean excepciones.

Embed This

Entendiendo robots.txt

Cómo los Rastreadores Web Usan robots.txt

Reglas Comunes de robots.txt

Rastreo vs. Indexación

Probando Su robots.txt

Preguntas Frecuentes

¿Qué es un archivo robots.txt?

¿Dónde se coloca el archivo robots.txt?

¿Puede robots.txt bloquear todos los rastreadores?

¿Google respeta robots.txt?

¿Puedo bloquear páginas específicas con robots.txt?

Related Calculators

.htaccess Generator

Nginx Config Generator

CSP Header Builder

You Might Also Need

Meta Tag Generator

Schema Markup Generator

.htaccess Generator

Recommended Reading

The Rule of 72 is wrong. Here's why that's fine, and the exact rule when it isn't.

15-Year vs 30-Year Mortgage: Which Saves You More?

How to Calculate Your Monthly Mortgage Payment (Step by Step)