robots.txt Generator & Tester

Q: Was ist eine robots.txt-Datei?

Eine robots.txt-Datei ist eine reine Textdatei, die im Stammverzeichnis einer Website platziert wird und Webcrawlern mitteilt, welche Seiten oder Bereiche der Website sie aufrufen duerfen oder nicht. Sie folgt dem Robots Exclusion Protocol, einem Standard, der seit 1994 verwendet wird. Suchmaschinen-Crawler wie Googlebot, Bingbot und andere pruefen diese Datei, bevor sie eine Website crawlen. Die Datei verwendet einfache Anweisungen wie User-agent, Disallow, Allow und Sitemap, um Regeln an Crawler zu kommunizieren.

Q: Wo wird die robots.txt-Datei abgelegt?

Die robots.txt-Datei muss im Stammverzeichnis Ihrer Website platziert werden, sodass sie unter https://example.com/robots.txt erreichbar ist. Sie muss unter dem exakten Pfad /robots.txt auf der Domain bereitgestellt werden. Eine Platzierung in einem Unterverzeichnis oder die Verwendung eines anderen Dateinamens funktioniert nicht. Die Datei muss eine reine Textdatei in UTF-8-Kodierung sein und mit dem Content-Type text/plain ausgeliefert werden. Jede Subdomain benoetigt ihre eigene robots.txt-Datei.

Q: Kann robots.txt alle Crawler blockieren?

Ja. Um alle Crawler von allen Seiten zu blockieren, verwenden Sie 'User-agent: *' gefolgt von 'Disallow: /' in Ihrer robots.txt-Datei. Dies teilt jedem Crawler mit, dass keine Seiten der Website gecrawlt werden sollen. Allerdings ist robots.txt beratend, nicht erzwingbar. Gut erzogene Crawler wie Googlebot und Bingbot respektieren sie, aber boesartige Bots koennen sie ignorieren. Fuer eine echte Zugriffsbeschraenkung verwenden Sie serverseitige Authentifizierung oder Firewall-Regeln. Beachten Sie auch, dass das Blockieren von Crawlern Seiten nicht aus den Suchergebnissen entfernt, wenn sie von anderen Websites verlinkt werden.

Q: Respektiert Google robots.txt?

Ja, Google respektiert robots.txt-Anweisungen. Der Googlebot prueft die robots.txt-Datei, bevor er eine URL auf einer Website crawlt. Wenn eine Seite verboten ist, wird der Googlebot sie nicht crawlen. Wenn jedoch andere Websites auf eine verbotene Seite verlinken, kann Google die URL trotzdem indexieren (und sie in den Suchergebnissen mit dem Hinweis anzeigen, dass die Beschreibung nicht verfuegbar ist), da robots.txt das Crawlen verhindert, nicht die Indexierung. Um die Indexierung zu verhindern, verwenden Sie stattdessen ein noindex-Meta-Tag oder den X-Robots-Tag HTTP-Header.

Q: Kann ich bestimmte Seiten mit robots.txt blockieren?

Ja. Verwenden Sie eine spezifische Disallow-Anweisung mit dem Pfad, den Sie blockieren moechten. Beispielsweise blockiert 'Disallow: /private/' alle URLs, die mit /private/ beginnen. 'Disallow: /page.html' blockiert genau diese Seite. Sie koennen das Platzhalterzeichen * verwenden, um Muster abzugleichen, z. B. 'Disallow: /*.pdf$' um alle PDF-Dateien zu blockieren. Sie koennen auch Allow-Anweisungen verwenden, um Ausnahmen innerhalb einer umfassenderen Disallow-Regel zu erstellen, z. B. /private/ blockieren, aber /private/public-page erlauben.

Erstellen Sie robots.txt-Dateien mit benutzerdefinierten Crawler-Regeln und Sitemaps, oder testen Sie eine vorhandene robots.txt, um zu sehen, ob bestimmte URLs erlaubt oder blockiert sind.

robots.txt verstehen

Die robots.txt-Datei ist die erste Datei, die gut erzogene Webcrawler beim Besuch einer Website pruefen. Sie befindet sich im Stammverzeichnis Ihrer Domain und verwendet das Robots Exclusion Protocol, um mitzuteilen, welche Teile Ihrer Website Crawler aufrufen duerfen und welche nicht. Obwohl der Standard seit 1994 in Verwendung ist, hat Google seine Interpretation in einer detaillierten Spezifikation formalisiert und 2019 einen Open-Source-Parser veroeffentlicht. Jede Website, die kontrollieren moechte, wie Suchmaschinen ihre Seiten crawlen, benoetigt eine ordnungsgemaess konfigurierte robots.txt-Datei.

Die Datei verwendet eine unkomplizierte Syntax. Jeder Abschnitt beginnt mit einer User-agent-Anweisung, die angibt, fuer welchen Crawler die Regeln gelten. Ein Sternchen passt auf alle Crawler. Disallow-Anweisungen listen Pfade auf, die nicht gecrawlt werden sollen, waehrend Allow-Anweisungen Ausnahmen innerhalb umfassenderer Disallow-Regeln erstellen. Die Sitemap-Anweisung verweist Crawler auf Ihre XML-Sitemap und hilft ihnen, alle Seiten Ihrer Website zu entdecken. Zeilen, die mit einem Rautezeichen beginnen, sind Kommentare und werden von Crawlern ignoriert.

Wie Webcrawler robots.txt verwenden

Wenn ein Suchmaschinen-Crawler Ihre Domain zum ersten Mal besucht, fragt er die /robots.txt-Datei ab, bevor er andere Seiten crawlt. Wenn die Datei existiert und Regeln fuer den User-Agent dieses Crawlers enthaelt, befolgt der Crawler diese Regeln. Wenn die Datei nicht existiert oder einen 404-Fehler zurueckgibt, nimmt der Crawler an, dass alle Seiten erlaubt sind. Wenn die Datei einen 5xx-Serverfehler zurueckgibt, stoppen die meisten Crawler voruebergehend das Crawlen der Website und versuchen es spaeter erneut, wobei die Unfaehigkeit, robots.txt zu lesen, als Vorsichtsmassnahme und nicht als Erlaubnis behandelt wird. Google speichert robots.txt-Dateien im Cache und aktualisiert sie mindestens einmal taeglich.

Gaengige robots.txt-Regeln

Der haeufigste Anwendungsfall ist das Blockieren von Crawlern fuer Admin-Bereiche, Login-Seiten, Suchergebnisseiten und duplizierte Inhalte. Zum Beispiel verhindert Disallow: /admin/, dass Crawler Ihr Administrationspanel indexieren. Disallow: /search verhindert, dass Suchmaschinen-Ergebnisseiten in Suchergebnissen erscheinen, was duenner, duplizierter Inhalt waere. Das Blockieren von PDF-Dateien, druckerfreundlichen Seiten oder Staging-Umgebungen sind weitere haeufige Anwendungen. Es ist wichtig zu beachten, dass robots.txt das Crawlen steuert, nicht die Indexierung. Eine durch robots.txt blockierte Seite kann trotzdem in Suchergebnissen erscheinen, wenn andere Seiten darauf verlinken.

Crawlen vs. Indexierung

Ein haeufiger Irrtum ist, dass robots.txt verhindern kann, dass eine Seite in Suchergebnissen erscheint. Das Blockieren einer Seite in robots.txt hindert Crawler daran, auf deren Inhalt zuzugreifen, aber die URL kann trotzdem in Suchergebnissen erscheinen, wenn externe Websites darauf verlinken. Google zeigt die URL mit dem Hinweis an, dass die Beschreibung nicht verfuegbar ist, da die Seite vom Crawlen blockiert ist. Um die Indexierung wirklich zu verhindern, verwenden Sie stattdessen das noindex-Meta-Tag oder den X-Robots-Tag-HTTP-Header. Entscheidend ist, dass die Seite crawlbar sein muss, damit Google die noindex-Anweisung sehen kann - blockieren Sie also keine Seite in robots.txt, wenn Sie noindex darauf verwenden moechten.

Testen Ihrer robots.txt

Bevor Sie eine robots.txt-Datei bereitstellen, testen Sie sie immer, um sicherzustellen, dass sie nicht versehentlich wichtige Seiten blockiert. Die Google Search Console bietet einen robots.txt-Tester, der Ihnen genau zeigt, wie der Googlebot Ihre Regeln interpretiert. Sie koennen auch den Tester-Tab in diesem Tool verwenden, um Ihren robots.txt-Inhalt einzufuegen und zu pruefen, ob bestimmte URLs erlaubt oder blockiert sind. Testen Sie Ihre wichtigsten Seiten, Ihre Sitemap-URL und alle Seiten, die Sie gezielt blockieren moechten, um zu ueberpruefen, ob die Regeln wie beabsichtigt funktionieren.

Haeufig gestellte Fragen

Was ist eine robots.txt-Datei?

Eine reine Textdatei im Stammverzeichnis einer Website, die Crawlern mitteilt, welche Seiten sie aufrufen duerfen oder nicht. Sie folgt dem Robots Exclusion Protocol mit Anweisungen wie User-agent, Disallow, Allow und Sitemap.

Wo wird die robots.txt-Datei abgelegt?

Sie muss sich im Stammverzeichnis der Domain unter dem exakten Pfad /robots.txt befinden. Jede Subdomain benoetigt ihre eigene Datei. Sie muss als text/plain in UTF-8-Kodierung ausgeliefert werden.

Kann robots.txt alle Crawler blockieren?

Mit "User-agent: * / Disallow: /" werden alle gut erzogenen Crawler blockiert. Boesartige Bots koennen dies jedoch ignorieren. Fuer eine echte Zugriffsbeschraenkung verwenden Sie serverseitige Authentifizierung.

Respektiert Google robots.txt?

Ja. Der Googlebot prueft robots.txt, bevor er eine URL crawlt. Blockierte Seiten koennen jedoch trotzdem in Suchergebnissen erscheinen, wenn sie von anderen Websites verlinkt werden. Verwenden Sie noindex, um die Indexierung zu verhindern.

Kann ich bestimmte Seiten mit robots.txt blockieren?

Ja. Verwenden Sie "Disallow: /pfad/" fuer Verzeichnisse oder "Disallow: /seite.html" fuer bestimmte Seiten. Platzhalter wie *.pdf$ koennen Muster abgleichen. Allow-Anweisungen erstellen Ausnahmen.

Embed This

robots.txt verstehen

Wie Webcrawler robots.txt verwenden

Gaengige robots.txt-Regeln

Crawlen vs. Indexierung

Testen Ihrer robots.txt

Haeufig gestellte Fragen

Was ist eine robots.txt-Datei?

Wo wird die robots.txt-Datei abgelegt?

Kann robots.txt alle Crawler blockieren?

Respektiert Google robots.txt?

Kann ich bestimmte Seiten mit robots.txt blockieren?

Related Calculators

.htaccess Generator

Nginx Config Generator

CSP Header Builder

You Might Also Need

Meta Tag Generator

Schema Markup Generator

.htaccess Generator

Recommended Reading

The Rule of 72 is wrong. Here's why that's fine, and the exact rule when it isn't.

15-Year vs 30-Year Mortgage: Which Saves You More?

How to Calculate Your Monthly Mortgage Payment (Step by Step)