Robots.txt – Definition, Erklärung und Beispiele
Die Robots.txt-Datei funktioniert wie eine Art Willkommensgruß – mit dem Ziel, den Suchmaschinenbots und anderen Robots die Spielregeln einer Domain zu erklären.
Doch benötigt jede Webseite zwingend eine Robots.txt-Datei und was solltest du bei der Erstellung beachten? Wir verraten es dir!
Robots.txt – was ist das?
Die Robots.txt-Datei ist per Definition eine Textdatei, mit deren Hilfe ausgewählte Bereiche einer Webseite oder auch komplette Webseiten vom (Suchmaschinen-)Crawling ausgeschlossen werden können.
Gemäß dem "Robots Exclusion Standard Protokoll“ (REP) ruft ein Webcrawler beim Besuchen einer Webseite als Erstes die Robots.txt-Datei auf und liest die enthaltenen Vorgaben aus.
Webseitenbetreibern ist es freigestellt, ob sie eine Robots.txt-Datei anlegen oder nicht.
Gut zu wissen: Was macht ein Webcrawler?
Webcrawler sind automatisierte Computerprogramme, die das World Wide Web durchsuchen und dabei Domains analysieren, indexieren oder Informationen extrahieren.
Das bekannteste Beispiel sind Suchmaschinen-Webcrawler. Zum Sichten des verfügbaren Webseitenmaterials schickt jede Suchmaschine ihren persönlichen Crawler.
Dieser durchsucht Domains automatisch nach allen vorhandenen Daten, also nach Seiten, Verzeichnissen, Bildern und Videos, um sie anschließend im entsprechenden Suchregister zu indexieren.
Zur Orientierung dient dem Crawler dabei unter anderem die Sitemap. Bei der Sitemap handelt es sich um eine hierarchische Übersicht aller bestehenden Seiten einer Webseite. Diese kannst du beispielsweise über die Google Search Console einreichen.
Bekannte Webcrawler:
Suchmaschine | Crawler |
---|---|
Googlebot | |
Google-Ads | Adsbot-Google |
Google-Bildersuche | Googlebot-Image |
Google-Adsense | MediaPartners-Google |
MSN | Msnbot |
Bing | bingbot |
Yahoo | Slurp |
Exalead | Exabot |
Teoma /Ask | Teoma |
DuckDuckGo | DuckDuckBot |
Internet Archive | ia_archiver |
Wo liegt die Robots.txt-Datei?
Pro Hauptdomain ist nur eine Robots.txt-Datei möglich. Diese sollte im Hauptverzeichnis (auch Stamm- oder Root-Verzeichnis) der Domain liegen und mit „robots.txt“, komplett in Kleinschreibung, benannt sein.
Nur unter Einhaltung dieser Bedingungen wird sie von Webcrawlern gefunden.
Um zur Robots.txt-Datei deiner Webseite zu gelangen, tippst du Folgendes in die Browserleiste ein: www.domainname.tld/robots.txt.
In unserem Beispiel wäre das: https://seo-revolution.com/robots.txt
Wie erstelle ich eine Robots.txt-Datei?
Die Robots.txt-Datei für deine Webseite kannst du ganz unkompliziert mithilfe eines Texteditors erstellen.
Du musst dazu keine speziellen Programmiersprachen beherrschen, sondern bloß die nötigen Befehle und Schlüsselbegriffe kennen.
Alternativ existieren zahlreiche (kostenfreie) Tools, die dich beim Anlegen deiner Robots.txt-Datei unterstützen.
Auch mit der Google Search Console lässt sich die Robots.txt-Datei erstellen sowie überprüfen. Führe vor dem Upload ins Hauptverzeichnis unbedingt eine Fehleranalyse durch, denn schon kleine Fehler können große Missverständnisse mit weitreichenden Folgen nach sich ziehen.
Expertentipp
Prüfe über das Robots Testing Tool der Google Search Console deine Robots.txt auf eventuelle Fehler, denn diese können schwerwiegende Folgen haben. Du brauchst dafür ein Google Konto und deine Domain muss mit der Google Search Console verbunden sein.
Was soll in der Robots.txt-Datei stehen?
In der Robots.txt-Datei werden Anweisungen für die Bots in einer oder mehreren Gruppen festgehalten. Eine Anweisungsgruppe setzt sich in der Regel wie folgt zusammen:
- Ansprache des User-Agents = Name des (Suchmaschinen-)Robots
- Auflistung aller nicht erlaubten Webbereiche ausgehend vom Hauptverzeichnis
- Auflistung aller erlaubten Webbereiche ausgehend vom Hauptverzeichnis
Es können mehrere Bots gleichzeitig angesprochen werden und die Punkte 2 und 3 dürfen ausgelassen oder vertauscht werden. Die Reihenfolge sollte so gewählt werden, dass die spezifischere Regel weiter oben steht.
Übersetzt in eine Robots-txt-Datei schaut das Ganze beispielsweise wie folgt aus:
Beispiel 1:
User-agent: Googlebot-Image
Disallow: /verzeichnis2/
Mit diesem Befehl sagst du dem Bot der Googlebildersuche, dass er das Verzeichnis2 nicht anschauen bzw. crawlen darf.
Beispiel 2:
Du kannst einem Crawlbot (im folgenden Beispiel Bing) übrigens auch ein pauschales Verbot zum Crawlen erteilen. Und zwar wie folgt:
User-agent: bingbot
Disallow: /
Sind Wildcards erlaubt?
Mit allgemeingültigen Platzhaltern, sogenannten Wildcards, soll die Kommunikation im World Wide Web vereinfacht werden. Doch sind diese auch in der Robots.txt-Welt willkommen?
Laut dem Robots Exclusion Standard Protokoll sind Wildcards zwar nicht vorgesehen, die großen Suchmaschinen unterstützen dennoch einige bestimmte Platzhalter wie beispielsweise das Asterisk (*).
Mit …
User-agent: *
Disallow: /verzeichnis3/
… verbietest du jeglichen Crawlingbots auf Verzeichnis3 zuzugreifen.
Beispiel 3:
User-agent: bingbot
User-agent: Googlebot
Disallow: /verzeichnis3/
Allow: /*
User-agent: *
Disallow: /*
Sitemap: https://domainname.tld/sitemap-name.xml
Das Crawlen wird hier allen Bots außer denen der Suchmaschinen Bing und Google verboten. Verzeichnis3 dürfen aber auch der bingbot und Googlebot nicht crawlen. Zusätzlich wird den Crawlern der absolute Pfad zur Sitemap der Domain verraten.
Diese Zusatzangabe wird nicht von allen Bots verstanden. Google und Bing können damit aber gut umgehen, womit das Crawlen der Webseite optimiert wird.
Weitere Befehle in der robots.txt Datei:
Befehl | Erklärung |
---|---|
$ Bsp: Disallow: /verzeichnis.php$ | Das $ agiert wie ein Stoppschild. Das $ zeigt den Crawlen bis wohin sie die Seite berücksichtigen können. In diesem Beispiel, sollen nur die Inhalte bis zum Verzeichnis.php berücksichtigt werden. |
Disallow: / Allow: /website/ | Zwar wird hier eine gesamte Website für die Bots gesperrt und trotzdem ist darunter das Dokument /website/ zum crawlen und zur Indexierung freigegeben. |
Disallow: /*.doc | Dieser Befehl zeigt den Crawlern, das es ihnen untersagt ist, bestimmte Dateintypen wie .doc, .pdf oder .mp4 zu crawlen. |
# | Die # markiert einen Kommentar in der robots.txt Datei, der vom Crawler nicht beachtet wird. |
Wofür solltest du keine Robots.txt-Datei verwenden?
Möchtest du die Indexierung einer bestimmten Seite verhindern, solltest du das bevorzugt über den Meta-Tag „Noindex“ lösen.
Trotzt REP sind die Suchmaschinen nämlich nicht dazu verpflichtet, der Robots.txt-Datei einer Webseite Folge zu leisten.
Auf eine Robots.txt-Datei ist demnach nur bedingt Verlass. Zwar respektieren sowohl der Googlebot als auch viele andere seriöse Suchmaschinencrawler die Wünsche der Webseitenbetreiber, es gibt aber auch eine Menge Crawler, die sich darüber hinwegsetzen.
Hat eine Seite beispielsweise viele Backlinks, kann es sein, dass ein Webcrawler trotz Robots.txt-Anweisung auf sie aufmerksam wird und sie listet.