Robots.txt
Die robots.txt ist eine einfache Textdatei, die im Root-Verzeichnis einer Website hinterlegt wird. Sie dient dazu, Suchmaschinen-Crawlern (Bots) Anweisungen zu geben, welche Teile der Website sie crawlen und indexieren dürfen oder welche Bereiche sie meiden sollen.
Sie ist ein wichtiges Instrument, um das Crawling-Verhalten von Suchmaschinen zu steuern und die Effizienz des Crawl-Budgets zu verbessern.

Robots.txt: Die Funktionen
Steuerung des Crawlings
Die robots.txt gibt an, welche Bereiche der Website von Suchmaschinen-Crawlern ignoriert werden sollen. So können Sie Crawler gezielt von internen oder irrelevanten Seiten fernhalten.
Ressourcenschonung
Indem weniger wichtige oder voluminöse Bereiche vom Crawling ausgeschlossen werden, können Server-Ressourcen geschont und das Crawl-Budget sinnvoller genutzt werden.
Sichtbarkeit verwalten
Sie können verhindern, dass unvollständige, private oder irrelevante Inhalte in den Suchergebnissen erscheinen, obwohl diese nicht vollständig indexierungsresistent sind.
Robots.txt: Aufbau und Syntax
Eine robots.txt-Datei besteht aus Anweisungen (Direktiven), die aus zwei Hauptbestandteilen zusammengesetzt sind:
User-agent
Definiert, für welchen Crawler die nachfolgenden Anweisungen gelten.
User-agent: * bedeutet, dass die Regeln für alle Crawler gelten.
Disallow
Gibt an, welche Seiten oder Verzeichnisse nicht gecrawlt werden dürfen.
Beispiel einer einfachen Robots.txt:
- User-agent: *
- Disallow: /admin/
- Disallow: /private/
- Erklärung: Alle Crawler (*) sollen die Verzeichnisse /admin/ und /private/ nicht besuchen.
- Allow: Erlaubt den Zugriff auf spezifische Seiten oder Unterverzeichnisse trotz einer generellen Einschränkung.
- Sitemap: Gibt an, wo die XML-Sitemap der Website zu finden ist.
Beispiel:
- User-agent: *
- Disallow: /intern/
- Allow: /intern/blog/
- Sitemap: www.beispielseite.de/sitemap.xml
- Erklärung: Das Verzeichnis /intern/ wird blockiert, außer dem Unterverzeichnis /intern/blog/. Die XML-Sitemap wird ebenfalls angegeben.
Robots.txt: Typische Anwendungen
- Ausschluss interner Bereiche
Admin- oder Testumgebungen (z. B. /staging/ oder /dev/) sollen nicht gecrawlt werden. - Vermeidung doppelter Inhalte
Parameter-basierte URLs oder Druckversionen (z. B. /?print=true) können ausgeschlossen werden, um Duplicate Content zu minimieren. - Blockieren von Ressourcen
Verzeichnisse mit CSS-, JS- oder Bilddateien können blockiert werden, um das Crawling auf Inhalte zu fokussieren. Allerdings sollten wichtige Ressourcen, die für die Darstellung der Seite erforderlich sind, freigegeben bleiben. - Verweis auf Sitemaps
Die Integration eines Sitemap-Links in die robots.txt erleichtert Suchmaschinen den Zugang zu einer vollständigen Inhaltsübersicht.
Robots.txt: Einschränkungen
- Kein vollständiger Schutz: Die robots.txt ist lediglich eine Anweisung an Crawler. Seriöse Suchmaschinen halten sich daran, jedoch können andere Bots (z. B. Spambots) die Regeln ignorieren.
- Indexierung trotz Disallow: URLs, die in der robots.txt ausgeschlossen wurden, können dennoch indexiert werden, wenn externe Links auf diese verweisen. Um dies zu verhindern, sollte ein noindex-Tag oder eine Zugriffsbeschränkung eingesetzt werden.
- Öffentliche Sichtbarkeit: Die robots.txt ist öffentlich zugänglich. Sensible Inhalte sollten niemals nur über die robots.txt verborgen werden.
Robots.txt: Bewährte Vorgehensweise
- Regelmäßige Überprüfung: Passen Sie die robots.txt regelmäßig an, wenn sich die Seitenstruktur oder Inhalte ändern.
- Keine wichtigen Ressourcen blockieren: CSS- und JavaScript-Dateien sollten nicht blockiert werden, da Suchmaschinen diese für die Bewertung von UX und Layout benötigen.
- Fehlervermeidung: Überprüfen Sie Ihre Robots.txt mit Tools wie der Google Search Console, um sicherzustellen, dass sie wie gewünscht funktioniert.
- Kombination mit anderen Maßnahmen: Nutzen Sie noindex-Tags oder Zugriffsbeschränkungen, wenn Sie sicherstellen möchten, dass Inhalte nicht in den Index aufgenommen werden.
In wenigen Worten
Die robots.txt ist ein effektives Tool, um das Crawling Ihrer Website zu steuern und Ressourcen effizient zu nutzen. Richtig eingesetzt, trägt sie dazu bei, irrelevante Inhalte aus dem Crawling-Prozess auszuschließen, Suchmaschinen auf die wichtigsten Seiten zu fokussieren und somit die SEO-Leistung Ihrer Website zu verbessern. Achten Sie jedoch darauf, dass die robots.txt keine vollständige Zugriffskontrolle bietet und sensible Inhalte zusätzlich geschützt werden sollten.