Skip to main content

robots.txt Generator & Tester

Erstellen Sie robots.txt-Dateien mit benutzerdefinierten Crawler-Regeln und Sitemaps, oder testen Sie eine vorhandene robots.txt, um zu sehen, ob bestimmte URLs erlaubt oder blockiert sind.

Ad (leaderboard)
Rate this tool
0.0 / 5 · 0 ratings

Embed This Calculator

Add this calculator to your website for free. Copy the single line of code below and paste it into your HTML. The calculator auto-resizes to fit your page.

<script src="https://calchammer.com/embed.js" data-calculator="robots-txt-generator" data-category="everyday"></script>
data-theme "light", "dark", or "auto"
data-values Pre-fill inputs, e.g. "amount=1000"
data-max-width Max width, e.g. "600px"
data-border "true" or "false"
Or use an iframe instead
<iframe src="https://calchammer.com/embed/everyday/robots-txt-generator" width="100%" height="500" style="border:none;border-radius:12px;" title="Robots Txt Calculator"></iframe>

Preview

yoursite.com/blog
Robots Txt Calculator auto-resizes here
Ad (in_results)

robots.txt verstehen

Die robots.txt-Datei ist die erste Datei, die gut erzogene Webcrawler beim Besuch einer Website pruefen. Sie befindet sich im Stammverzeichnis Ihrer Domain und verwendet das Robots Exclusion Protocol, um mitzuteilen, welche Teile Ihrer Website Crawler aufrufen duerfen und welche nicht. Obwohl der Standard seit 1994 in Verwendung ist, hat Google seine Interpretation in einer detaillierten Spezifikation formalisiert und 2019 einen Open-Source-Parser veroeffentlicht. Jede Website, die kontrollieren moechte, wie Suchmaschinen ihre Seiten crawlen, benoetigt eine ordnungsgemaess konfigurierte robots.txt-Datei.

Die Datei verwendet eine unkomplizierte Syntax. Jeder Abschnitt beginnt mit einer User-agent-Anweisung, die angibt, fuer welchen Crawler die Regeln gelten. Ein Sternchen passt auf alle Crawler. Disallow-Anweisungen listen Pfade auf, die nicht gecrawlt werden sollen, waehrend Allow-Anweisungen Ausnahmen innerhalb umfassenderer Disallow-Regeln erstellen. Die Sitemap-Anweisung verweist Crawler auf Ihre XML-Sitemap und hilft ihnen, alle Seiten Ihrer Website zu entdecken. Zeilen, die mit einem Rautezeichen beginnen, sind Kommentare und werden von Crawlern ignoriert.

Ad (in_content)

Wie Webcrawler robots.txt verwenden

Wenn ein Suchmaschinen-Crawler Ihre Domain zum ersten Mal besucht, fragt er die /robots.txt-Datei ab, bevor er andere Seiten crawlt. Wenn die Datei existiert und Regeln fuer den User-Agent dieses Crawlers enthaelt, befolgt der Crawler diese Regeln. Wenn die Datei nicht existiert oder einen 404-Fehler zurueckgibt, nimmt der Crawler an, dass alle Seiten erlaubt sind. Wenn die Datei einen 5xx-Serverfehler zurueckgibt, stoppen die meisten Crawler voruebergehend das Crawlen der Website und versuchen es spaeter erneut, wobei die Unfaehigkeit, robots.txt zu lesen, als Vorsichtsmassnahme und nicht als Erlaubnis behandelt wird. Google speichert robots.txt-Dateien im Cache und aktualisiert sie mindestens einmal taeglich.

Gaengige robots.txt-Regeln

Der haeufigste Anwendungsfall ist das Blockieren von Crawlern fuer Admin-Bereiche, Login-Seiten, Suchergebnisseiten und duplizierte Inhalte. Zum Beispiel verhindert Disallow: /admin/, dass Crawler Ihr Administrationspanel indexieren. Disallow: /search verhindert, dass Suchmaschinen-Ergebnisseiten in Suchergebnissen erscheinen, was duenner, duplizierter Inhalt waere. Das Blockieren von PDF-Dateien, druckerfreundlichen Seiten oder Staging-Umgebungen sind weitere haeufige Anwendungen. Es ist wichtig zu beachten, dass robots.txt das Crawlen steuert, nicht die Indexierung. Eine durch robots.txt blockierte Seite kann trotzdem in Suchergebnissen erscheinen, wenn andere Seiten darauf verlinken.

Crawlen vs. Indexierung

Ein haeufiger Irrtum ist, dass robots.txt verhindern kann, dass eine Seite in Suchergebnissen erscheint. Das Blockieren einer Seite in robots.txt hindert Crawler daran, auf deren Inhalt zuzugreifen, aber die URL kann trotzdem in Suchergebnissen erscheinen, wenn externe Websites darauf verlinken. Google zeigt die URL mit dem Hinweis an, dass die Beschreibung nicht verfuegbar ist, da die Seite vom Crawlen blockiert ist. Um die Indexierung wirklich zu verhindern, verwenden Sie stattdessen das noindex-Meta-Tag oder den X-Robots-Tag-HTTP-Header. Entscheidend ist, dass die Seite crawlbar sein muss, damit Google die noindex-Anweisung sehen kann - blockieren Sie also keine Seite in robots.txt, wenn Sie noindex darauf verwenden moechten.

Testen Ihrer robots.txt

Bevor Sie eine robots.txt-Datei bereitstellen, testen Sie sie immer, um sicherzustellen, dass sie nicht versehentlich wichtige Seiten blockiert. Die Google Search Console bietet einen robots.txt-Tester, der Ihnen genau zeigt, wie der Googlebot Ihre Regeln interpretiert. Sie koennen auch den Tester-Tab in diesem Tool verwenden, um Ihren robots.txt-Inhalt einzufuegen und zu pruefen, ob bestimmte URLs erlaubt oder blockiert sind. Testen Sie Ihre wichtigsten Seiten, Ihre Sitemap-URL und alle Seiten, die Sie gezielt blockieren moechten, um zu ueberpruefen, ob die Regeln wie beabsichtigt funktionieren.

Haeufig gestellte Fragen

Was ist eine robots.txt-Datei?

Eine reine Textdatei im Stammverzeichnis einer Website, die Crawlern mitteilt, welche Seiten sie aufrufen duerfen oder nicht. Sie folgt dem Robots Exclusion Protocol mit Anweisungen wie User-agent, Disallow, Allow und Sitemap.

Wo wird die robots.txt-Datei abgelegt?

Sie muss sich im Stammverzeichnis der Domain unter dem exakten Pfad /robots.txt befinden. Jede Subdomain benoetigt ihre eigene Datei. Sie muss als text/plain in UTF-8-Kodierung ausgeliefert werden.

Kann robots.txt alle Crawler blockieren?

Mit "User-agent: * / Disallow: /" werden alle gut erzogenen Crawler blockiert. Boesartige Bots koennen dies jedoch ignorieren. Fuer eine echte Zugriffsbeschraenkung verwenden Sie serverseitige Authentifizierung.

Respektiert Google robots.txt?

Ja. Der Googlebot prueft robots.txt, bevor er eine URL crawlt. Blockierte Seiten koennen jedoch trotzdem in Suchergebnissen erscheinen, wenn sie von anderen Websites verlinkt werden. Verwenden Sie noindex, um die Indexierung zu verhindern.

Kann ich bestimmte Seiten mit robots.txt blockieren?

Ja. Verwenden Sie "Disallow: /pfad/" fuer Verzeichnisse oder "Disallow: /seite.html" fuer bestimmte Seiten. Platzhalter wie *.pdf$ koennen Muster abgleichen. Allow-Anweisungen erstellen Ausnahmen.

Related Calculators

Disclaimer: This calculator is for informational and educational purposes only. Results are estimates and should not be considered professional expert advice. Consult a qualified professional before making decisions based on these calculations. See our full Disclaimer.