Robots.txt

Robots.txt: Crawling Ihrer Website gezielt steuern
Was ist eine Robots.txt?

Die robots.txt ist eine einfache Textdatei, die im Root-Verzeichnis einer Website hinterlegt wird. Sie dient dazu, Suchmaschinen-Crawlern (Bots) Anweisungen zu geben, welche Teile der Website sie crawlen und indexieren dürfen oder welche Bereiche sie meiden sollen.

Sie ist ein wichtiges Instrument, um das Crawling-Verhalten von Suchmaschinen zu steuern und die Effizienz des Crawl-Budgets zu verbessern.

Robots.txt: Die Funktionen

Steuerung des Crawlings

Die robots.txt gibt an, welche Bereiche der Website von Suchmaschinen-Crawlern ignoriert werden sollen. So können Sie Crawler gezielt von internen oder irrelevanten Seiten fernhalten.

Ressourcenschonung

Indem weniger wichtige oder voluminöse Bereiche vom Crawling ausgeschlossen werden, können Server-Ressourcen geschont und das Crawl-Budget sinnvoller genutzt werden.

Sichtbarkeit verwalten

Sie können verhindern, dass unvollständige, private oder irrelevante Inhalte in den Suchergebnissen erscheinen, obwohl diese nicht vollständig indexierungsresistent sind.

Robots.txt: Aufbau und Syntax

Eine robots.txt-Datei besteht aus Anweisungen (Direktiven), die aus zwei Hauptbestandteilen zusammengesetzt sind:

User-agent
Definiert, für welchen Crawler die nachfolgenden Anweisungen gelten.
User-agent: * bedeutet, dass die Regeln für alle Crawler gelten.

Disallow

Gibt an, welche Seiten oder Verzeichnisse nicht gecrawlt werden dürfen.

Beispiel einer einfachen Robots.txt:

  • User-agent: *
  • Disallow: /admin/
  • Disallow: /private/
  • Erklärung: Alle Crawler (*) sollen die Verzeichnisse /admin/ und /private/ nicht besuchen.
Zusätzliche Direktiven:
  • Allow: Erlaubt den Zugriff auf spezifische Seiten oder Unterverzeichnisse trotz einer generellen Einschränkung.
  • Sitemap: Gibt an, wo die XML-Sitemap der Website zu finden ist.

Beispiel:

  • User-agent: *
  • Disallow: /intern/
  • Allow: /intern/blog/
  • Sitemap: www.beispielseite.de/sitemap.xml
  • Erklärung: Das Verzeichnis /intern/ wird blockiert, außer dem Unterverzeichnis /intern/blog/. Die XML-Sitemap wird ebenfalls angegeben.

Robots.txt: Typische Anwendungen

  • Ausschluss interner Bereiche
    Admin- oder Testumgebungen (z. B. /staging/ oder /dev/) sollen nicht gecrawlt werden.
  • Vermeidung doppelter Inhalte
    Parameter-basierte URLs oder Druckversionen (z. B. /?print=true) können ausgeschlossen werden, um Duplicate Content zu minimieren.
  • Blockieren von Ressourcen
    Verzeichnisse mit CSS-, JS- oder Bilddateien können blockiert werden, um das Crawling auf Inhalte zu fokussieren. Allerdings sollten wichtige Ressourcen, die für die Darstellung der Seite erforderlich sind, freigegeben bleiben.
  • Verweis auf Sitemaps
    Die Integration eines Sitemap-Links in die robots.txt erleichtert Suchmaschinen den Zugang zu einer vollständigen Inhaltsübersicht.

Robots.txt: Einschränkungen

  • Kein vollständiger Schutz: Die robots.txt ist lediglich eine Anweisung an Crawler. Seriöse Suchmaschinen halten sich daran, jedoch können andere Bots (z. B. Spambots) die Regeln ignorieren.
  • Indexierung trotz Disallow: URLs, die in der robots.txt ausgeschlossen wurden, können dennoch indexiert werden, wenn externe Links auf diese verweisen. Um dies zu verhindern, sollte ein noindex-Tag oder eine Zugriffsbeschränkung eingesetzt werden.
  • Öffentliche Sichtbarkeit: Die robots.txt ist öffentlich zugänglich. Sensible Inhalte sollten niemals nur über die robots.txt verborgen werden.

Robots.txt: Bewährte Vorgehensweise

  • Regelmäßige Überprüfung: Passen Sie die robots.txt regelmäßig an, wenn sich die Seitenstruktur oder Inhalte ändern.
  • Keine wichtigen Ressourcen blockieren: CSS- und JavaScript-Dateien sollten nicht blockiert werden, da Suchmaschinen diese für die Bewertung von UX und Layout benötigen.
  • Fehlervermeidung: Überprüfen Sie Ihre Robots.txt mit Tools wie der Google Search Console, um sicherzustellen, dass sie wie gewünscht funktioniert.
  • Kombination mit anderen Maßnahmen: Nutzen Sie noindex-Tags oder Zugriffsbeschränkungen, wenn Sie sicherstellen möchten, dass Inhalte nicht in den Index aufgenommen werden.

In wenigen Worten

Die robots.txt ist ein effektives Tool, um das Crawling Ihrer Website zu steuern und Ressourcen effizient zu nutzen. Richtig eingesetzt, trägt sie dazu bei, irrelevante Inhalte aus dem Crawling-Prozess auszuschließen, Suchmaschinen auf die wichtigsten Seiten zu fokussieren und somit die SEO-Leistung Ihrer Website zu verbessern. Achten Sie jedoch darauf, dass die robots.txt keine vollständige Zugriffskontrolle bietet und sensible Inhalte zusätzlich geschützt werden sollten.