robots.txt verstehen
Die robots.txt-Datei ist die erste Datei, die gut erzogene Webcrawler beim Besuch einer Website pruefen. Sie befindet sich im Stammverzeichnis Ihrer Domain und verwendet das Robots Exclusion Protocol, um mitzuteilen, welche Teile Ihrer Website Crawler aufrufen duerfen und welche nicht. Obwohl der Standard seit 1994 in Verwendung ist, hat Google seine Interpretation in einer detaillierten Spezifikation formalisiert und 2019 einen Open-Source-Parser veroeffentlicht. Jede Website, die kontrollieren moechte, wie Suchmaschinen ihre Seiten crawlen, benoetigt eine ordnungsgemaess konfigurierte robots.txt-Datei.
Die Datei verwendet eine unkomplizierte Syntax. Jeder Abschnitt beginnt mit einer User-agent-Anweisung, die angibt, fuer welchen Crawler die Regeln gelten. Ein Sternchen passt auf alle Crawler. Disallow-Anweisungen listen Pfade auf, die nicht gecrawlt werden sollen, waehrend Allow-Anweisungen Ausnahmen innerhalb umfassenderer Disallow-Regeln erstellen. Die Sitemap-Anweisung verweist Crawler auf Ihre XML-Sitemap und hilft ihnen, alle Seiten Ihrer Website zu entdecken. Zeilen, die mit einem Rautezeichen beginnen, sind Kommentare und werden von Crawlern ignoriert.
Wie Webcrawler robots.txt verwenden
Wenn ein Suchmaschinen-Crawler Ihre Domain zum ersten Mal besucht, fragt er die /robots.txt-Datei ab, bevor er andere Seiten crawlt. Wenn die Datei existiert und Regeln fuer den User-Agent dieses Crawlers enthaelt, befolgt der Crawler diese Regeln. Wenn die Datei nicht existiert oder einen 404-Fehler zurueckgibt, nimmt der Crawler an, dass alle Seiten erlaubt sind. Wenn die Datei einen 5xx-Serverfehler zurueckgibt, stoppen die meisten Crawler voruebergehend das Crawlen der Website und versuchen es spaeter erneut, wobei die Unfaehigkeit, robots.txt zu lesen, als Vorsichtsmassnahme und nicht als Erlaubnis behandelt wird. Google speichert robots.txt-Dateien im Cache und aktualisiert sie mindestens einmal taeglich.
Gaengige robots.txt-Regeln
Der haeufigste Anwendungsfall ist das Blockieren von Crawlern fuer Admin-Bereiche, Login-Seiten, Suchergebnisseiten und duplizierte Inhalte. Zum Beispiel verhindert Disallow: /admin/, dass Crawler Ihr Administrationspanel indexieren. Disallow: /search verhindert, dass Suchmaschinen-Ergebnisseiten in Suchergebnissen erscheinen, was duenner, duplizierter Inhalt waere. Das Blockieren von PDF-Dateien, druckerfreundlichen Seiten oder Staging-Umgebungen sind weitere haeufige Anwendungen. Es ist wichtig zu beachten, dass robots.txt das Crawlen steuert, nicht die Indexierung. Eine durch robots.txt blockierte Seite kann trotzdem in Suchergebnissen erscheinen, wenn andere Seiten darauf verlinken.
Crawlen vs. Indexierung
Ein haeufiger Irrtum ist, dass robots.txt verhindern kann, dass eine Seite in Suchergebnissen erscheint. Das Blockieren einer Seite in robots.txt hindert Crawler daran, auf deren Inhalt zuzugreifen, aber die URL kann trotzdem in Suchergebnissen erscheinen, wenn externe Websites darauf verlinken. Google zeigt die URL mit dem Hinweis an, dass die Beschreibung nicht verfuegbar ist, da die Seite vom Crawlen blockiert ist. Um die Indexierung wirklich zu verhindern, verwenden Sie stattdessen das noindex-Meta-Tag oder den X-Robots-Tag-HTTP-Header. Entscheidend ist, dass die Seite crawlbar sein muss, damit Google die noindex-Anweisung sehen kann - blockieren Sie also keine Seite in robots.txt, wenn Sie noindex darauf verwenden moechten.
Testen Ihrer robots.txt
Bevor Sie eine robots.txt-Datei bereitstellen, testen Sie sie immer, um sicherzustellen, dass sie nicht versehentlich wichtige Seiten blockiert. Die Google Search Console bietet einen robots.txt-Tester, der Ihnen genau zeigt, wie der Googlebot Ihre Regeln interpretiert. Sie koennen auch den Tester-Tab in diesem Tool verwenden, um Ihren robots.txt-Inhalt einzufuegen und zu pruefen, ob bestimmte URLs erlaubt oder blockiert sind. Testen Sie Ihre wichtigsten Seiten, Ihre Sitemap-URL und alle Seiten, die Sie gezielt blockieren moechten, um zu ueberpruefen, ob die Regeln wie beabsichtigt funktionieren.
Haeufig gestellte Fragen
Was ist eine robots.txt-Datei?
Eine reine Textdatei im Stammverzeichnis einer Website, die Crawlern mitteilt, welche Seiten sie aufrufen duerfen oder nicht. Sie folgt dem Robots Exclusion Protocol mit Anweisungen wie User-agent, Disallow, Allow und Sitemap.
Wo wird die robots.txt-Datei abgelegt?
Sie muss sich im Stammverzeichnis der Domain unter dem exakten Pfad /robots.txt befinden. Jede Subdomain benoetigt ihre eigene Datei. Sie muss als text/plain in UTF-8-Kodierung ausgeliefert werden.
Kann robots.txt alle Crawler blockieren?
Mit "User-agent: * / Disallow: /" werden alle gut erzogenen Crawler blockiert. Boesartige Bots koennen dies jedoch ignorieren. Fuer eine echte Zugriffsbeschraenkung verwenden Sie serverseitige Authentifizierung.
Respektiert Google robots.txt?
Ja. Der Googlebot prueft robots.txt, bevor er eine URL crawlt. Blockierte Seiten koennen jedoch trotzdem in Suchergebnissen erscheinen, wenn sie von anderen Websites verlinkt werden. Verwenden Sie noindex, um die Indexierung zu verhindern.
Kann ich bestimmte Seiten mit robots.txt blockieren?
Ja. Verwenden Sie "Disallow: /pfad/" fuer Verzeichnisse oder "Disallow: /seite.html" fuer bestimmte Seiten. Platzhalter wie *.pdf$ koennen Muster abgleichen. Allow-Anweisungen erstellen Ausnahmen.
Save your results & get weekly tips
Get calculator tips, formula guides, and financial insights delivered weekly. Join 10,000+ readers.
No spam. Unsubscribe anytime.