Comprendre le fichier robots.txt
Le fichier robots.txt est le premier fichier que les robots d'indexation bien comportes verifient lorsqu'ils visitent un site. Il se trouve a la racine de votre domaine et utilise le protocole d'exclusion des robots pour communiquer quelles parties de votre site les robots doivent ou ne doivent pas explorer. Bien que la norme soit en usage depuis 1994, Google a formalise son interpretation dans une specification detaillee et a publie un analyseur open source en 2019. Tout site web souhaitant controler la maniere dont les moteurs de recherche explorent ses pages a besoin d'un fichier robots.txt correctement configure.
Le fichier utilise une syntaxe simple. Chaque section commence par une directive User-agent specifiant a quel robot les regles s'appliquent. Un asterisque correspond a tous les robots. Les directives Disallow listent les chemins qui ne doivent pas etre explores, tandis que les directives Allow creent des exceptions au sein de regles Disallow plus larges. La directive Sitemap dirige les robots vers votre plan de site XML, les aidant a decouvrir toutes les pages de votre site. Les lignes commencant par un caractere diese sont des commentaires et sont ignorees par les robots.
Comment les robots d'indexation utilisent le fichier robots.txt
Lorsqu'un robot de moteur de recherche visite votre domaine pour la premiere fois, il demande le fichier /robots.txt avant d'explorer toute autre page. Si le fichier existe et contient des regles pour le user agent de ce robot, le robot suit ces regles. Si le fichier n'existe pas ou renvoie une erreur 404, le robot suppose que toutes les pages sont autorisees. Si le fichier renvoie une erreur 5xx, la plupart des robots arretent temporairement l'exploration du site et reessaient plus tard, traitant l'impossibilite de lire le robots.txt comme une precaution plutot qu'une permission. Google met en cache les fichiers robots.txt et les rafraichit au moins une fois par jour.
Regles courantes du robots.txt
Le cas d'utilisation le plus courant est le blocage des robots pour les zones d'administration, les pages de connexion, les pages de resultats de recherche et le contenu duplique. Par exemple, Disallow: /admin/ empeche les robots d'indexer votre panneau d'administration. Disallow: /search empeche les pages de resultats de recherche d'apparaitre dans les resultats des moteurs de recherche, ce qui serait du contenu duplique et peu substantiel. Bloquer les fichiers PDF, les pages imprimables ou les environnements de staging sont d'autres applications frequentes. Il est important de se rappeler que robots.txt controle l'exploration, pas l'indexation. Une page bloquee par robots.txt peut toujours apparaitre dans les resultats de recherche si d'autres pages y renvoient.
Exploration vs. indexation
Une idee recue courante est que robots.txt peut empecher une page d'apparaitre dans les resultats de recherche. Bloquer une page dans robots.txt empeche les robots d'acceder a son contenu, mais l'URL peut toujours apparaitre dans les resultats de recherche si des sites externes y renvoient. Google affichera l'URL avec une note indiquant que la description n'est pas disponible car la page est bloquee a l'exploration. Pour veritablement empecher l'indexation, utilisez plutot la balise meta noindex ou l'en-tete HTTP X-Robots-Tag. De maniere cruciale, la page doit etre explorable pour que Google voie la directive noindex, donc ne bloquez pas une page dans robots.txt si vous souhaitez utiliser noindex dessus.
Tester votre fichier robots.txt
Avant de deployer un fichier robots.txt, testez-le toujours pour vous assurer qu'il ne bloque pas accidentellement des pages importantes. Google Search Console fournit un testeur robots.txt qui vous montre exactement comment Googlebot interprete vos regles. Vous pouvez egalement utiliser l'onglet testeur de cet outil pour coller votre contenu robots.txt et verifier si des URL specifiques sont autorisees ou bloquees. Testez vos pages les plus importantes, l'URL de votre sitemap et toutes les pages que vous souhaitez specifiquement bloquer pour verifier que les regles fonctionnent comme prevu.
Foire aux questions
Qu'est-ce qu'un fichier robots.txt ?
Un fichier texte brut a la racine d'un site web qui indique aux robots quelles pages ils peuvent ou ne peuvent pas explorer. Il suit le protocole d'exclusion des robots en utilisant des directives comme User-agent, Disallow, Allow et Sitemap.
Ou placer le fichier robots.txt ?
Il doit se trouver a la racine du domaine au chemin exact /robots.txt. Chaque sous-domaine necessite son propre fichier. Il doit etre servi en text/plain avec l'encodage UTF-8.
Le fichier robots.txt peut-il bloquer tous les robots ?
L'utilisation de "User-agent: * / Disallow: /" bloque tous les robots bien comportes. Cependant, les robots malveillants peuvent l'ignorer. Pour une vraie restriction d'acces, utilisez l'authentification cote serveur.
Google respecte-t-il le fichier robots.txt ?
Oui. Googlebot verifie le fichier robots.txt avant d'explorer toute URL. Cependant, les pages bloquees peuvent toujours apparaitre dans les resultats de recherche si d'autres sites y renvoient. Utilisez noindex pour empecher l'indexation.
Puis-je bloquer des pages specifiques avec robots.txt ?
Oui. Utilisez "Disallow: /chemin/" pour les repertoires ou "Disallow: /page.html" pour des pages specifiques. Les caracteres jokers comme *.pdf$ peuvent faire correspondre des motifs. Les directives Allow creent des exceptions.
Save your results & get weekly tips
Get calculator tips, formula guides, and financial insights delivered weekly. Join 10,000+ readers.
No spam. Unsubscribe anytime.