AI-Crawler verstehen und kontrollieren: So zeigst du AI-Bots deine Inhalte

Die rasante Entwicklung von Künstlicher Intelligenz hat die Art verändert, wie wir Informationen suchen und finden.

Die Optimierung der Systeme (GEO / LLMO) ist aber in vielen Teilen vergleichbar mit der klassischen, technischen Suchmaschinenoptimierung (SEO). Im SEO ist eine der wichtigsten Grundlagen für den Erfolg, die Crawlbarkeit einer Seite sicherzustellen. Wenn der Suchmaschinenbot eine Seite nicht crawlen kann oder darf, kann er sie auch nicht indexieren oder gar ranken. 

Das gleiche Prinzip gilt auch für AI-Crawler, Bots und Agenten. Wenn wir ihnen den Zugang zu unseren Systemen verwehren, werden unsere Inhalte bzw. unsere Marke dort auch nicht angezeigt. Das kann bewusst geschehen, um Inhalte vor der KI zu verbergen und sie nicht nutzbar zu machen. Oder aber unbewusst, da ich nicht mitbekomme, dass meine Inhalte nicht ausgelesen werden können. 

Was sind AI-Crawler?

AI-Crawler (auch: LLM-Crawler oder Bots) sind automatisierte Programme, die Webseiten durchsuchen, um Inhalte für KI-Systeme zu erfassen. Die bekanntesten Beispiele stammen von:

  • OpenAI (GPTBot, OAI-SearchBot, ChatGPT-User)
  • Anthropic (ClaudeBot, anthropic-ai)
  • Perplexity (PerplexityBot, Perplexity-User)
  • Google, Microsoft, Amazon (z. B. Google-Extended, BingBot)
  • TikTok, Facebook, Apple, LinkedIn und viele mehr

Diese Bots identifizieren sich über sogenannte User-Agent-Strings, die du in Server-Logs erkennen und über robots.txt oder Firewalls gezielt steuern kannst.

Warum du AI-Crawler nicht ignorieren solltest

Im Positiven:

  • Traffic: Einige KI-gestützte Suchmaschinen (z. B. ChatGPT oder Perplexity) erzeugen mittlerweile relevanten Traffic. 
  • Relevanz: Die enormen Wachstumsraten der Nutzung von AI-Chatbots lässt erahnen, dass deren Relevanz immer mehr steigen wird. 
  • Sichtbarkeit / Brand Awareness: Wer in AI-Tools auftaucht, bleibt sichtbar. Die Auswahl von Anbietern von Produkten oder Dienstleistungen erfolgt immer öfter über ausführliche Prompts und deren Antworten in AI-Chats.
  • Leads / Verkäufe: AI-Tools werden immer mehr Shopping Features anbieten oder werthaltige Leads liefern.

Im Negativen:

  • Inhaltsschutz: Wenn du nicht möchtest, dass deine Inhalte zur Schulung von KI-Modellen verwendet werden, solltest du die entsprechenden Bots blockieren. Insbesondere sensible oder schützenswerte Daten sollten nicht in die KI gefüttert werden. 
  • Serverbelastung: Manche Bots generieren hohe Lasten auf Servern oder verletzen Crawl-Richtlinien.

Meine Meinung:

Lasse die AI-Crawler auf alle Inhalte, auf die du auch den Googlebot loslassen würdest. Eine “Blockade-Haltung” gegenüber AI-Tools (“Die klauen meine wertvollen Inhalte”) bringt auf Dauer nichts. Andere liefern diese Inhalte bestimmt und du bist als Einzige:r nicht sichtbar. 

Was du für GEO / LLMO nun beachten solltest?

  1. Prüfe, ob die gängigen AI-Crawler über die Robots.txt geblockt sind. 

Üblicherweise sind die AI-Crawler dort nicht geblockt. Schaue dennoch vorsichtshalber nach unter: deinedomain.de/robots.txt 

  1. Prüfe, ob die AI-Crawler über die Firewall deines Servers geblockt sind.

Dieser Fall ist deutlich wahrscheinlicher. Die Einstellungen der Firewall hast du üblicherweise nicht im Blick. Die Kolleg:innen, die sich in deinem Unternehmen um die Serverinfrastruktur kümmern (wenn du das nicht selbst bist), mögen gewisse Bots in der Vergangenheit abgeblockt haben, da sie eine erhöhte, und aus ihrer Sicht unnötige, Serverlast verursacht haben. 3. Stelle sicher, dass deine Inhalte auch ohne JavaScript sichtbar sind.

  1. Stelle sicher, dass deine Inhalte auch ohne JavaScript sichtbar sind.

Die meisten AI-Crawler rendern kein JavaScript. Nutze daher Server-Side Rendering oder Static Site Generation, damit der Content im initialen HTML verfügbar ist. Nur so können KI-Bots deine Inhalte erkennen und anzeigen.

Beispiel für eine robots.txt, die AI-Crawler freigibt

Schaue dir deine Robots.txt an und prüfe genau, ob die untentstehenden Bots gegebenenfalls durch deinen Befehl „Disallow: / “ geblockt sind.

# OPENAI 
Suche (zeigt meine Webseiten als Links in der ChatGPT Suche). NICHT verwendet für Modell-Trainings.
User-agent: OAI-SearchBot
Allow: /

# Benutzergesteuertes Browsing von ChatGPT und benutzerdefinierter GPTs. Emuliert menschliche Klicks.
User-agent: ChatGPT-User
Allow: /


User-agent: ChatGPT-User/2.0
Allow: /

# Crawler für Modell-Trainings. Setze ein Disallow hier, wenn du nicht in GPT-4o oder GPT-5 auftauchen möchtest.
User-agent: GPTBot
Allow: / 

# ANTHROPIC (Claude)
User-agent: anthropic-ai      
Allow: /


User-agent: ClaudeBot   
Allow: /


User-agent: claude-web 
Allow: /

# PERPLEXITY 
User-agent: PerplexityBot
Allow: /


User-agent: Perplexity-User
Allow: /

# GOOGLE (Gemini)
User-agent: Google-Extended
Allow: /

# MICROSOFT (Bing / Copilot)
User-agent: BingBot
Allow: /

# AMAZON
User-agent: Amazonbot
Allow: /

# APPLE
User-agent: Applebot
Allow: /


User-agent: Applebot-Extended
Allow: /

# META 
User-agent: FacebookBot
Allow: /


User-agent: meta-externalagent
Allow: /

# DUCKDUCKGO
User-agent: DuckAssistBot
Allow: /

Tipp: Jeder User-agent-Block benötigt mindestens eine Anweisung (Allow oder Disallow), sonst wird er ignoriert. Zudem muss jede User-Agent-Anweisung durch eine Leerzeile getrennt werden. Wenn keine Angaben zu einem User-Agent in der Robots.txt gesetzt werden, gilt dies auch als “Allow” (Zugriff erlaubt). Daher müssen die Werte eigentlich nur gesetzt werden, wenn man einzelne Ordner vom Crawling ausschließen möchte. 

Wie gehst du nun vor, um das serverseitige Blocken der AI-Crawler aufzuheben?

  1. Schreibe dir die Crawler raus, die du zulassen willst. Die gängigsten Beispiele wären: 
  • GPTBot
  • ChatGPT-User
  • OAI-SearchBot
  • ClaudeBot
  • Claude-web
  • PerplexityBot
  • Perplexity-User
  • Google-Extended
  • BingBot
  • FacebookBot
  • meta-externalagent
  • anthropic-ai
  • Applebot
  1. Rufe deine Firewall auf und schaue, ob User Agents dort geblockt werden. Falls ja, entferne die entsprechenden Sperren. 
  2. Rufe deine Server-Logfiles ab und suche dort nach den oben genannten User Agents. Schreibe dir die entsprechenden IP-Adressen auf, mit denen die Crawler auf deine Seite zugreifen.
  3. Whiteliste diese IP-Adressen sowie die öffentlichen IPs (die du weiter unten im Artikel findest) in deiner Firewall bzw. auf deinem Server. Schaue auch Rate Limits und Bot-Blocker-Listen durch, um etwaige Sperren aufzuheben
  4. Wiederhole Schritt  3 und 4 regelmäßig, um die neu auftretenden IP-Adressen zu erkennen und auf deine Whitelist zu schreiben.

IP-Adressen von AI-Crawlern

Einige AI-Unternehmen geben ihre IP-Adressen öffentlich an. Diese kannst du dann beispielsweise bei deiner Firewall whitelisten oder in deinen Logs analysieren. Die Listen werden sicher nicht vollständig sein, weshalb eine Logfile-Analyse auf Basis der User-Agents weiterhin sinnvoll ist.  Hier findet ihr die mit bekannten Übersichten:

Open-AI

User-AgentBeschreibung & Ressoucen
OAI-SearchBotDer OAI-SearchBot wird verwendet, um Links zu Websites zu erstellen und diese in den Suchergebnissen der ChatGPT-Suchfunktionen anzuzeigen. Er wird nicht dazu verwendet, Inhalte zu crawlen, um die generativen KI-Grundmodelle von OpenAI zu trainieren.
Der vollständige User-Agent-String enthält ; OAI-SearchBot/1.0; +https://openai.com/searchbot
Veröffentlichte IP-Adressen: https://openai.com/searchbot.json
ChatGPT-UserChatGPT-User wird für Benutzeraktionen in ChatGPT und Custom GPTs genutzt. Wenn Nutzer:innen ChatGPT oder einem CustomGPT eine Frage stellen, können diese eine Webseite mit einem ChatGPT-User-Agenten besuchen. ChatGPT-User wird weder zum automatischen Crawlen des Webs noch zum Crawlen von Inhalten für generatives KI-Training verwendet.
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, wie Gecko); kompatibel; GPTBot/1.1; +https://openai.com/gptbot
Veröffentlichte IP-Adressen: https://openai.com/chatgpt-user.json
GPTBotGPTBot wird verwendet, um Inhalte zu crawlen, die für das Training der generativen KI-Grundlagenmodelle verwendet werden können.
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Veröffentlichte IP-Adressen: https://openai.com/gptbot.json

Quelle: https://platform.openai.com/docs/bots/overview-of-openai-crawlers 

Perplexity

User-AgentBeschreibung & Ressoucen
PerplexityBotPerplexityBot wurde entwickelt, um Websites in den Suchergebnissen auf Perplexity anzuzeigen und zu verlinken. Er wird nicht verwendet, um Inhalte für KI-Grundlagenmodelle zu crawlen. 
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Veröffentlichte IP-Adressen: https://www.perplexity.com/perplexitybot.json
Perplexity‑UserPerplexity-User unterstützt Benutzeraktionen innerhalb von Perplexity. Wenn Benutzer Perplexity eine Frage stellen, kann er eine Webseite besuchen, um eine genaue Antwort zu geben, und einen Link zu dieser Seite in seine Antwort aufnehmen. Perplexity-User kontrolliert, auf welche Seiten diese Benutzeranfragen zugreifen können. Es wird nicht zum Web-Crawling oder zum Sammeln von Inhalten für das Training von KI-Grundlagenmodellen verwendet.
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
Veröffentlichte IP-Adressen: https://www.perplexity.com/perplexity-user.json

Quelle: https://docs.perplexity.ai/guides/bots 

Google

User-AgentBeschreibung & Ressoucen
Google-ExtendedGoogle-Extended ist ein eigenständiges Produkt-Token, mit dem Webpublisher steuern können, ob Inhalte, die Google von ihren Websites crawlt, zum Trainieren zukünftiger Gemini-Modelle verwendet werden dürfen, die für Gemini-Apps und die Vertex AI API für Gemini genutzt werden, und für die Fundierung (zum Bereitstellen von Inhalten aus dem Index der Google Suche für das Modell zum Zeitpunkt des Prompts, um Faktizität und Relevanz zu verbessern) in Gemini-Apps und Fundierung mit der Google Suche in Vertex AI.
Nutzeung vorhandener User-Agents, u.a.:
Googlebot (Smartphone): Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot (Computer):Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
Veröffentlichte IP-Adressen: Google Bots:https://developers.google.com/search/apis/ipranges/googlebot.json User triggered Fetchers:https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json 

Quelle: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers?hl=de 

Pro Tipp: AI-Crawler können kein JavaScript rendern: Was du beachten solltest

Ein zentraler technischer Unterschied zwischen klassischen Suchmaschinenbots (wie dem Googlebot) und den meisten aktuellen AI-Crawlern: KI-Bots führen kein JavaScript aus. Während der Googlebot eine echte Rendering-Engine nutzt und clientseitige Inhalte vollständig nachladen kann, analysieren GPTBot, ClaudeBot, PerplexityBot & Co. nur den HTML-Rohtext beim ersten Aufruf – sie sehen also nur das, was direkt im initialen HTML steht.

Das Problem: Viele moderne Websites, vor allem Headless-Setups oder Frameworks wie React, Vue oder Next.js, laden Inhalte clientseitig per JavaScript nach (Client-Side Rendering, CSR). Für menschliche Nutzer:innen kein Problem, für KI-Bots bleiben diese Inhalte unsichtbar.

Was bedeutet das konkret für GEO / LLMO?

  • Setze auf Server-Side Rendering (SSR) oder Static Site Generation (SSG) für alle Inhalte, die von KI gelesen und angezeigt werden sollen.
  • Nutze Client-Side Rendering nur für sekundäre Inhalte oder interaktive Funktionen, jedoch nicht für deinen Haupt-Content.
  • Prüfe stichprobenartig mit „View Page Source“ (Quelltext anzeigen), ob deine wichtigsten Inhalte im reinen HTML sichtbar sind.
  • Vermeide komplexe Weiterleitungen oder JavaScript-abhängige Navigation: AI-Bots springen bei kaputten Links, 404-Seiten oder endlosen Redirects oft sofort ab.

Gerade bei AI-Suchsystemen entscheidet die Sichtbarkeit des Server-HTML darüber, ob deine Inhalte überhaupt in die Antwort eingebunden werden oder nicht. Ein sauberes SSR-Setup ist damit nicht nur für SEO sinnvoll, sondern auch für LLMO/GEO essenziell.

Wie du Missbrauch durch AI-Crawler und Fake-Bots verhinderst

Die Zulassung von AI-Crawlern bringt Sichtbarkeit und Reichweite. Aber sie öffnet auch die Tür für technischen Missbrauch. Denn nicht jede Anfrage mit „GPTBot“ im User-Agent ist auch wirklich von OpenAI. Auch benutzergesteuerte Bots wie ChatGPT-User oder Perplexity-User können durch Skripte, Scraper oder Spam-Tools überstrapaziert werden. Die Folge: unnötige Serverlast, Crawling-Spam oder Sicherheitsrisiken.

Deshalb solltest du deine Systeme nicht nur öffnen, sondern auch schützen. Hier sind die wichtigsten Maßnahmen:

Rate-Limiting für verdächtige User-Agents

Setze Limits auf Anfragen pro IP oder pro User-Agent, z. B.:

  • Max. 20 bis 30 Requests/Minute für ChatGPT-User, Perplexity-User
  • Dynamische Limits per IP oder UA über Cloudflare, NGINX oder Vercel Middleware
  • Bei Missbrauch: HTTP 429 (Too Many Requests) oder temporäre Blockade

Fake-Crawler erkennen und blockieren

Viele „Bots“ geben sich als GPTBot aus, ohne es zu sein. Prüfe daher:

  • Passt die IP-Adresse zur offiziellen OpenAI-IP-Range (siehe: https://openai.com/gptbot.json)?
  • Stimmt der vollständige User-Agent-String mit der offiziellen Dokumentation überein?
  • Gibt es auffällige Requests (z. B. 100x dieselbe URL, komische Pfade wie /*.php, aggressive Wiederholungen)?

Alles, was nicht authentisch aussieht: blockieren oder throtteln.

Technische Schutzmaßnahmen gegen Bot-Missbrauch

Neben klassischen Regeln in der robots.txt helfen technische Schutzmechanismen, deine Inhalte vor Überlastung zu schützen, ohne seriöse Crawler auszuschließen.

IP-basierte Whitelists und Firewall-Regeln

Erlaube nur echte Bots:

  • Nutze IP-Whitelists basierend auf OpenAI, Perplexity, Anthropic etc..
  • Verwende ggf. Reverse-DNS-Checks zur Bestätigung legitimer Zugriffe.
  • Setze Firewall-Regeln z. B. in Cloudflare, Vercel, Netlify oder via NGINX manuell.

Logs analysieren und Alerts einrichten

Log-Dateien zeigen dir, wer wie oft auf deine Seite zugreift. Das solltest du regelmäßig prüfen:

  • Erkenne IPs mit ungewöhnlich vielen Requests.
  • Filtere nach User-Agents wie GPTBot, ClaudeBot, Perplexity-User.
  • Setze Alerts, wenn z. B. mehr als 500 Requests/Stunde von einem Bot auftauchen.

Fazit

Die Entwicklung im Bereich der KI ist derzeit wirklich enorm schnell. Als Webseitenbetreiber:in solltest du diese Entwicklungen nicht verschlafen. Daher nimm zumindest die beiden folgenden To Dos mit, um deine Marke und Website in den KI-Tools sichtbar zu machen:

  1. Prüfe deine Robots.txt, ob alle User-Agents der Crawler zugelassen sind.
  2. Prüfe deine Firewall, ob die User-Agents und IP-Adressen freigegeben sind.
  3. Stelle deine wichtigsten Inhalte als HTML zur Verfügung, entweder direkt oder über SSR.

Wenn du möchtest, kann ich dir auch beim Erstellen deiner individuellen robots.txt, bei der Log-Analyse oder beim Tracking-Setup helfen. Sag einfach Bescheid!

Quellen & weiterführende Infos:

Schreibe einen Kommentar