robots.txt für KI-Bots
Konfigurieren Sie Ihre robots.txt korrekt, damit GPTBot, ClaudeBot, PerplexityBot und andere KI-Crawler auf Ihre Inhalte zugreifen können — und Sie in KI-generierten Antworten zitiert werden.
Was ist robots.txt?
robots.txt ist eine Textdatei im Stammverzeichnis Ihrer Domain (z. B. https://example.com/robots.txt). Sie gibt Web-Crawlern an, auf welche Seiten oder Bereiche Ihrer Website sie zugreifen dürfen oder nicht. Die Datei folgt dem Robots Exclusion Protocol — einem Standard, den alle großen Suchmaschinen und KI-Crawler unterstützen.
Jeder Eintrag besteht aus einer User-agent-Zeile zur Identifikation des Bots, gefolgt von einer oder mehreren Allow- oder Disallow-Direktiven.
Warum KI-Bots expliziten Zugang benötigen
Die meisten KI-Crawler — darunter GPTBot (OpenAI), ClaudeBot (Anthropic) und PerplexityBot — respektieren robots.txt. Wenn Ihre Datei sie blockiert, sei es durch ein pauschales Disallow: / unter User-agent: * oder durch fehlende explizite Erlaubnis, werden Ihre Inhalte nicht indexiert und bleiben für KI-generierte Antworten unsichtbar.
Viele Websites haben robots.txt-Dateien, die ursprünglich für Suchmaschinen-Crawler geschrieben wurden. Diese Dateien enthalten oft weitreichende Einschränkungen, die KI-Bots unbeabsichtigt blockieren. Die Überprüfung und Aktualisierung Ihrer robots.txt ist eine der wirkungsvollsten Maßnahmen für mehr KI-Sichtbarkeit.
Vollständiges robots.txt-Beispiel
Kopieren Sie diese Vorlage und passen Sie sie für Ihre Domain an. Die Sitemap-Zeile am Ende hilft Crawlern, Ihre Seiten effizient zu entdecken.
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Amazonbot
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: cohere-ai
Allow: /
User-agent: anthropic-ai
Allow: /
Sitemap: https://example.com/sitemap.xml
Ersetzen Sie https://example.com/sitemap.xml durch Ihre tatsächliche Sitemap-URL. Falls Sie mehrere Sitemaps haben, fügen Sie je eine Sitemap:-Zeile pro Datei hinzu.
Wie Sie Ihre robots.txt überprüfen
- Google Search Console — Nutzen Sie den integrierten robots.txt-Tester, um zu prüfen, welche Regeln für eine bestimmte URL gelten.
- curl — Führen Sie
curl -s https://ihredomain.de/robots.txtin einem Terminal aus, um zu bestätigen, dass die Datei korrekt mit dem Status200ausgeliefert wird. - KI-Sichtbarkeits-Scanner — Unser kostenloser Scanner prüft Ihre robots.txt als Teil eines vollständigen 19-Punkte-KI-Sichtbarkeits-Audits.
Häufige Fehler
- Pauschalblockierung:
User-agent: *gefolgt vonDisallow: /blockiert alle Bots — einschließlich sämtlicher KI-Crawler. Dieser Eintrag stammt häufig aus der Entwicklungs- oder Staging-Umgebung und wurde vergessen zu entfernen. - Fehlende Sitemap-Zeile: Ohne Sitemap-Angabe müssen Crawler Seiten ausschließlich über Links entdecken. Tragen Sie stets Ihre Sitemap-URL ein.
- Falscher Dateipfad: robots.txt muss im Stammverzeichnis Ihrer Domain liegen (
/robots.txt), nicht in einem Unterordner. Eine Datei unter/blog/robots.txtwird von Crawlern ignoriert. - Groß-/Kleinschreibung: Die Bot-Namen im
User-agent-Feld unterscheiden zwischen Groß- und Kleinschreibung.GPTBotist nicht dasselbe wiegptbot. - Noindex via Meta-Tag: Beachten Sie, dass robots.txt den Crawling-Zugang steuert, nicht die Indexierung. Verwenden Sie
<meta name="robots" content="noindex">-Tags oderX-Robots-Tag-HTTP-Header, um einzelne Seiten von der Indexierung auszuschließen.
Offizielle Quellen
- Google — robots.txt-Spezifikation und Syntax
- OpenAI — GPTBot-Dokumentation
- Anthropic — ClaudeBot und anthropic-ai Crawler-Dokumentation
- Perplexity — Indexierung durch PerplexityBot