robots.txt für KI-Bots

Konfigurieren Sie Ihre robots.txt korrekt, damit GPTBot, ClaudeBot, PerplexityBot und andere KI-Crawler auf Ihre Inhalte zugreifen können — und Sie in KI-generierten Antworten zitiert werden.

Was ist robots.txt?

robots.txt ist eine Textdatei im Stammverzeichnis Ihrer Domain (z. B. https://example.com/robots.txt). Sie gibt Web-Crawlern an, auf welche Seiten oder Bereiche Ihrer Website sie zugreifen dürfen oder nicht. Die Datei folgt dem Robots Exclusion Protocol — einem Standard, den alle großen Suchmaschinen und KI-Crawler unterstützen.

Jeder Eintrag besteht aus einer User-agent-Zeile zur Identifikation des Bots, gefolgt von einer oder mehreren Allow- oder Disallow-Direktiven.

Warum KI-Bots expliziten Zugang benötigen

Die meisten KI-Crawler — darunter GPTBot (OpenAI), ClaudeBot (Anthropic) und PerplexityBot — respektieren robots.txt. Wenn Ihre Datei sie blockiert, sei es durch ein pauschales Disallow: / unter User-agent: * oder durch fehlende explizite Erlaubnis, werden Ihre Inhalte nicht indexiert und bleiben für KI-generierte Antworten unsichtbar.

Viele Websites haben robots.txt-Dateien, die ursprünglich für Suchmaschinen-Crawler geschrieben wurden. Diese Dateien enthalten oft weitreichende Einschränkungen, die KI-Bots unbeabsichtigt blockieren. Die Überprüfung und Aktualisierung Ihrer robots.txt ist eine der wirkungsvollsten Maßnahmen für mehr KI-Sichtbarkeit.

Zwei Arten von KI-Crawlern — und warum der Unterschied zählt

Nicht alle KI-Bots funktionieren gleich. Es gibt zwei grundsätzlich verschiedene Mechanismen, und Ihre robots.txt-Einstellungen haben für jeden davon sehr unterschiedliche Effekte.

1. Live-Crawler (Retrieval)

Diese Bots rufen Ihre Seite in Echtzeit ab, wenn ein Nutzer der KI eine Frage stellt. Ihr Inhalt erscheint direkt in der Antwort, oft mit Zitat-Link. Beispiele:

ChatGPT-User — OpenAI ChatGPT Browsing
OAI-SearchBot — OpenAI SearchGPT
PerplexityBot, Perplexity-User — Perplexity AI
Claude-Web, Claude-SearchBot — Anthropic Claude mit Web-Zugriff

Effekt von robots.txt-Änderungen: sofort. Heute erlauben, heute zitiert werden. Heute blockieren, heute aus KI-Antworten verschwinden.

2. Training-Crawler

Diese Bots sammeln Daten für das Training der nächsten Version eines KI-Modells. Die heutigen ChatGPT-Antworten stammen aus seinem Trainings-Datensatz — typischerweise 6–12 Monate alt. Einen Training-Bot heute zu blockieren ändert nicht, was die KI bereits weiß; es beeinflusst nur, was die nächste Modellversion wissen wird. Beispiele:

GPTBot — OpenAI Training
ClaudeBot, anthropic-ai — Anthropic Training
Google-Extended — Google Gemini Training
CCBot — Common Crawl (von vielen KI-Unternehmen genutzt)
Bytespider, Amazonbot, Applebot-Extended, cohere-ai

Effekt von robots.txt-Änderungen: verzögert. Ihre Änderungen werden erst sichtbar, wenn das KI-Unternehmen seine nächste Modellversion veröffentlicht — das kann Monate dauern.

Praktischer Rat: Live-Crawler sollten Sie in jedem Fall erlauben — sie bringen Echtzeit-Sichtbarkeit mit Zitaten. Bei Training-Crawlern entscheiden Sie nach Ihrer Content-Strategie: erlauben, wenn Sie möchten, dass Ihre Inhalte in zukünftiges KI-Wissen einfließen; blockieren, wenn Sie die Kontrolle über die Verwendung Ihrer Inhalte behalten möchten.

Vollständiges robots.txt-Beispiel

Kopieren Sie diese Vorlage und passen Sie sie für Ihre Domain an. Die Sitemap-Zeile am Ende hilft Crawlern, Ihre Seiten effizient zu entdecken.

User-agent: *
Allow: /

# ── Live-Crawler (Retrieval — Sofort-Effekt) ──

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: Claude-SearchBot
Allow: /

# ── Training-Crawler (verzögerter Effekt bis zum nächsten Modell) ──

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: Bytespider
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: anthropic-ai
Allow: /

Sitemap: https://example.com/sitemap.xml

Ersetzen Sie https://example.com/sitemap.xml durch Ihre tatsächliche Sitemap-URL. Falls Sie mehrere Sitemaps haben, fügen Sie je eine Sitemap:-Zeile pro Datei hinzu.

Wie Sie Ihre robots.txt überprüfen

Google Search Console — Nutzen Sie den integrierten robots.txt-Tester, um zu prüfen, welche Regeln für eine bestimmte URL gelten.
curl — Führen Sie curl -s https://ihredomain.de/robots.txt in einem Terminal aus, um zu bestätigen, dass die Datei korrekt mit dem Status 200 ausgeliefert wird.
KI-Sichtbarkeits-Scanner — Unser kostenloser Scanner prüft Ihre robots.txt als Teil eines vollständigen 19-Punkte-KI-Sichtbarkeits-Audits.

Häufige Fehler

Pauschalblockierung: User-agent: * gefolgt von Disallow: / blockiert alle Bots — einschließlich sämtlicher KI-Crawler. Dieser Eintrag stammt häufig aus der Entwicklungs- oder Staging-Umgebung und wurde vergessen zu entfernen.
Fehlende Sitemap-Zeile: Ohne Sitemap-Angabe müssen Crawler Seiten ausschließlich über Links entdecken. Tragen Sie stets Ihre Sitemap-URL ein.
Falscher Dateipfad: robots.txt muss im Stammverzeichnis Ihrer Domain liegen (/robots.txt), nicht in einem Unterordner. Eine Datei unter /blog/robots.txt wird von Crawlern ignoriert.
Groß-/Kleinschreibung: Die Bot-Namen im User-agent-Feld unterscheiden zwischen Groß- und Kleinschreibung. GPTBot ist nicht dasselbe wie gptbot.
Noindex via Meta-Tag: Beachten Sie, dass robots.txt den Crawling-Zugang steuert, nicht die Indexierung. Verwenden Sie <meta name="robots" content="noindex">-Tags oder X-Robots-Tag-HTTP-Header, um einzelne Seiten von der Indexierung auszuschließen.

Offizielle Quellen

Testen Sie Ihre robots.txt jetzt — kostenloser KI-Sichtbarkeits-Score 26 Checks in unter 30 Sekunden