Anleitungen·8 Min. Lesezeit

Wie man KI-Agenten verifiziert

Der Operator-Guide für Publisher: legitime KI-Agenten von gefälschten unterscheiden. IP-Ranges, Reverse-DNS, TLS-Fingerprints, Request-Signierung und die Policy-Schicht darüber.

Was ist KI-Agent-Verifikation?

KI-Agent-Verifikation ist der Prozess, zu bestätigen, dass eine Anfrage, die sich als ein benannter KI-Crawler ausgibt — GPTBot, ClaudeBot, PerplexityBot, Googlebot, Applebot —, tatsächlich von der Organisation stammt, die diesen Crawler betreibt. Das ist ein anderes Problem als Bot-Erkennung. Bot-Erkennung beantwortet, ob der Client automatisiert ist. Verifikation beantwortet, ob die Automatisierung die ist, die sie zu sein behauptet.

Das Problem zeigt sich, sobald Sie in die Logs schauen. Ein User-Agent-String ist ein Header, den der Client zu senden entschieden hat. Jeder Scraper kann User-Agent auf GPTBot setzen. Die Zeile in Ihrem Access-Log ist kein Identitätsnachweis, sondern ein Nachweis einer Behauptung. Verifikation ist die Lücke zwischen Behauptung und Identität.

Drei Arten von Traffic brauchen diese Unterscheidung. Such-Indexer, die Referral-Traffic senden und per Default auf eine Allowlist gehören. KI-Crawler, die Sie lizenziert oder explizit erlaubt haben. Und Agenten, die für einen echten menschlichen Nutzer handeln, bei denen der Betreiber mehr zählt als die Tatsache der Automatisierung. Die falsche Entscheidung kostet jeweils etwas — verlorenes Such-Ranking, entgangene Lizenzeinnahmen, ein blockierter Kunde mitten im Kauf.

Warum KI-Agent-Verifikation gerade jetzt zählt

Volumen erzwingt die Entscheidung. Cloudflare Radar meldet, dass Anfang 2026 39 % der Top-Millionen-Websites von KI-Bots aufgerufen wurden, während nur 2,98 % dieser Seiten sie aktiv blockieren. HUMAN Security maß ein Wachstum des KI-Agent-Traffics von 7.851 % über 2025. Wenn KI-Traffic Rundungsfehler war, ist pauschales Blockieren oder pauschales Erlauben billig. Wenn er ein Drittel Ihrer Requests ist, ist jede Seite dieser Entscheidung teuer.

Die Einhaltung ausgesprochener Regeln ist zusammengebrochen. Tollbits Q4-2025-Bericht maß, dass ChatGPT-User auf 42 % der Seiten zugriff, die ihn in robots.txt explizit blockiert hatten, und dass 30 % aller KI-Bot-Scrapes die robots.txt-Berechtigungen ignorierten. robots.txt ist kein Verifikations-Mechanismus und war es nie. Es ist eine Bitte.

Spoofing ist billig. DataDomes Global Bot Security Report 2024 fand, dass 95 % fortgeschrittener Bot-Angriffe die passive Inspektion passieren und 83 % einfacher curl-basierter Bots unbemerkt bleiben. Sich als benannter KI-Crawler auszugeben ist ein Wochenendprojekt: rotierende Residential-IPs, ein aus den Vendor-Docs kopierter User Agent, eine TLS-Library, die den Chrome-Handshake nachbildet.

Die kommerziellen Einsätze kippten im letzten Jahr. OpenAI, Perplexity und Google haben Lizenzverträge mit Publishern unterzeichnet. Dieser Umsatz hängt davon ab, dass eine Plattform den lizenzierten Agenten vom ihn imitierenden Scraper unterscheiden kann. Verifikation ist jetzt der Zähler.

Arten von Verifikationssignalen

Verifikationssignale fallen in vier Stufen, geordnet danach, wie teuer sie zu fälschen sind.

**User-Agent-Behauptung.** Kostenlos. Jeder Client kann jeden User Agent senden. Einen veröffentlichten KI-Bot-String in Ihren Logs zu matchen identifiziert jenen Traffic, der ohnehin regelkonform sein wollte, und identifiziert sonst nichts.

**IP-Range und Reverse-DNS.** Billig zu prüfen, schwer in Masse zu fälschen. Googlebot veröffentlicht offizielle IP-Bereiche und unterstützt Reverse-DNS plus Forward-DNS — Sie schlagen den PTR-Record auf der Quell-IP nach, dann den A- oder AAAA-Record auf dem erhaltenen Hostnamen, und prüfen, dass der Hostname auf googlebot.com endet. Bingbot folgt demselben Muster unter search.msn.com. Applebot veröffentlicht seine Ranges. OpenAI veröffentlicht die IP-Bereiche von GPTBot, OAI-SearchBot und ChatGPT-User auf platform.openai.com. Anthropic veröffentlicht die Ranges von ClaudeBot und Claude-User. Die Veröffentlichung von PerplexityBot war inkonsistent. Der Preis ist Pflege: Die Verzeichnisse aktualisieren sich, und die Liste, die Sie letztes Quartal geprüft haben, ist schon veraltet.

**Kryptografische Request-Signierung.** Teuer im Deployment, im Grunde unfälschbar, solange der private Schlüssel privat bleibt. Die IETF-Spezifikation draft-ietf-httpbis-message-signatures gibt einen Standardweg, wie ein Client eine Anfrage mit seiner Identität signiert. Kein großer KI-Anbieter schreibt das bisher vor. Cloudflares Web-Bot-Auth-Vorschlag und Anthropics Experimente mit signierten Agent-Pässen sind die frühen Schritte. Beobachten: ja. Darauf verlassen: noch nicht.

**Verhaltens- und Fingerprint-Signale.** Für den Angreifer teuer, für den Verteidiger billig. JA4-TLS-Fingerprints hashen die Cipher Suites, Extensions und Extension-Reihenfolge, die ein Client in seinem ClientHello sendet. Cloudflare verfolgt täglich rund 15 Millionen eindeutige JA4s an seinem Edge. HTTP/2-SETTINGS-Werte und Pseudo-Header-Reihenfolge unterscheiden sich pro Browser-Familie auf eine Art, die Spoofing-Libraries selten kopieren. Request-Kadenz, Wiederbesuchs-Intervalle und Pfadmuster trennen einen geplanten Crawler von einem Schub rotierender-Proxy-Traffic. Fingerprints fangen den langen Schwanz, den IP-Bereiche und Signaturen nicht fangen.

Wie KI-Agent-Verifikation funktioniert

Eine Produktions-Verifikationspipeline nimmt drei Signal-Schichten pro Request und erzeugt ein Identitätsurteil, bevor der Origin den Body sieht.

Die erste Schicht ist statische Identität. Der Edge vergleicht User Agent und Quell-IP mit einem gepflegten Verzeichnis von KI-Crawler-Identitäten. Sitzt die Quell-IP in Anthropics veröffentlichter ClaudeBot-Range und passt der User Agent, ist die Behauptung konsistent mit dem öffentlichen Stand. Ist die Quell-IP ein Residential-Proxy und der User Agent sagt ClaudeBot, ist die Behauptung schon tot.

Die zweite Schicht ist Cross-Layer-Konsistenz. Der TLS-Handshake legt einen JA4-Fingerprint offen. Chrome sendet einen bestimmten WINDOW_UPDATE-Wert in seinem ersten SETTINGS-Frame — etwa 15 MB. Firefox sendet etwa 12,5 MB. GPTBot sendet, was die Library tut, die OpenAI einsetzt — stabil über alle Requests. Ein Request, der sich per User Agent als Chrome ausgibt, einen Python-TLS-Fingerprint trägt und HTTP/2-Settings aus einer Go-Library hat, hat zweimal gelogen. Jede einzelne Schicht ist fälschbar. Die Kombination nicht, weil die Spoofing-Toolchains nicht jede Schicht zugleich abdecken.

Die dritte Schicht ist Verhalten über Zeit. Ein echter ClaudeBot macht eine stetige Zahl von Requests pro Sekunde, kehrt in vorhersehbarem Zyklus zurück und bleibt in seiner eigenen IP-Range. Ein gefälschter ClaudeBot sprintet in einer Minute durch hundert Seiten, driftet über autonome Systeme und stoppt, sobald sein Proxy-Pool leer ist. Ein rollierendes Fenster von 50 bis 100 Requests pro Quelle reicht meist, um einen neuen Fingerprint mit hoher Sicherheit zu klassifizieren.

Build-or-Buy ist eher eine Frage der Verzeichnispflege als des Engineerings. Einen Reverse-DNS-Lookup zu schreiben ist ein Wochenende. Eine Tabelle aus IP-Bereichen und User Agents für 50 KI-Crawler über 24 Monate aktuell zu halten ist ein Vollzeitjob. Cloudflare bietet AI Crawl Control als Managed Layer an. DataDome und Kasada pflegen kommerzielle Verzeichnisse. Centinel liefert Fingerprints für den langen Schwanz und die großen Namen. Die Daten müssen aktuell bleiben.

Wie man einen legitimen KI-Agenten identifiziert

Fangen Sie bei den Betreibern an, die publizieren. GPTBot, OAI-SearchBot und ChatGPT-User haben IP-Bereiche und einen veröffentlichten User Agent. ClaudeBot und Claude-User sind auf docs.anthropic.com dokumentiert. Googlebot und Google-Extended unterstützen Reverse-DNS und veröffentlichen IP-Ranges. Applebot ist auf support.apple.com dokumentiert. Bingbot ist auf bing.com/webmasters dokumentiert. Behauptet ein Request, einer von ihnen zu sein, und die IP liegt außerhalb der veröffentlichten Range, ist es ein Spoof. Am Edge blockieren und weitergehen.

Für Betreiber, die einen User Agent veröffentlichen, aber keine gepflegte IP-Range — PerplexityBot hat geschwankt, mehrere kleinere KI-Startups veröffentlichen nichts —, greifen Sie auf Fingerprint-plus-Verhalten zurück. Ist der JA4 über ein rollierendes Fenster stabil, passt die Kadenz zu einem Trainings-Crawler und das Pfadmuster zu einem Crawl-Sweep statt zu einem gezielten Abruf, ist der Request wahrscheinlich legitim. Als unverifiziert-aber-konsistent loggen.

Für Agent-on-behalf-of-user-Traffic — ein ChatGPT-Agent, der ein Ticket kauft, eine Claude-for-browsing-Session, ein Custom-Agent auf Anthropics Model Context Protocol —, steigt die Identifikation eine Schicht höher. MCP-Server bieten Agenten Fähigkeiten über authentifizierte Kanäle an, mit Bearer-Tokens auf der MCP-Ebene statt auf HTTP. Die Verifikationsfrage wird, ob der Agent ein gültiges Token vorlegt und welcher Betreiber es ausgestellt hat.

Ein Publisher muss eine Perspektive wählen. Ein Newsroom-CTO interessiert sich am meisten für Trainings- und Retrieval-Crawler — die greifen auf Archiv-Content zu und sitzen im Zentrum der Lizenzgespräche. Eine DTC-E-Commerce-Plattform interessiert sich am meisten für Agent-on-behalf-of-user-Traffic, weil diese Agenten Käufe abschließen und auf einen Verify-and-Allow-Pfad gehören. Eine SaaS-Docs-Plattform interessiert sich am meisten für Such- und Retrieval-Crawler, weil ihr Content zitiert werden soll. Der Signal-Mix ist derselbe. Die Policy nicht.

Wie man auf unverifizierte Agenten reagiert

Verifikation ohne Reaktion ist eine Log-Datei. Drei Reaktionen decken fast jeden Fall.

Blockieren Sie jene, die die Grundkonsistenz nicht bestehen. Ein Request mit GPTBot-User-Agent von einer Residential-IP, einem curl-impersonate-TLS-Fingerprint und einer Burst-Rate von 200 Seiten pro Minute ist kein GPTBot. Am Edge verwerfen. Origin-Kosten und Lizenzleckagen sinken gleichzeitig.

Fordern Sie die aus der Grauzone heraus. Ein Fingerprint, den Sie noch nicht gesehen haben, konsistent mit einem Headless-Browser, der Seiten abruft, die auch ein menschlicher Leser abrufen würde. Ein Interstitial-Check oder eine Proof-of-Work-Challenge trennt einen neugierigen Entwickler, der einen Agenten testet, von einem kommerziellen Scraper hinter Residential-Proxies. Die Challenge ist für einen echten Nutzer billig, für einen Scraper-Pool teuer.

Verify-and-Allow für den Rest. Das ist die unpopuläre Antwort und meist die richtige. Cloudflare Radars 2,98 %-Blockrate auf KI-Bots über die Top-Millionen ist kein Versagen des Bot-Managements — es ist ein Zeichen, dass die meisten Betreiber zum Schluss kamen, pauschales Blockieren kostet mehr, als es bringt. Der richtige Default für einen verifizierten Such-Indexer, einen verifizierten Retrieval-Crawler oder einen verifizierten Agenten mit signiertem Pass ist, ihn passieren zu lassen, den Betreiber zu loggen und das kumulierte Volumen zu beobachten. Blockieren landet erst dann auf dem Tisch, wenn ein bestimmter Betreiber die Verifikation nicht besteht oder ein von Ihnen gesetztes Budget überschreitet.

Verifikation ist nicht dasselbe wie Sicherheit. Ein legitimer GPTBot-Betreiber kann seinen Crawler hinter einem Residential-Proxy-Pool laufen lassen. Eine echte Claude-User-Session kann am anderen Ende von einem Missbrauchs-Skript gesteuert sein. Verifikation bestätigt den Betreiber. Das Verhalten des Betreibers ist eine separate Prüfung.

Das ist die Schicht, die Centinel für Publisher implementiert, die ihr eigenes Verzeichnis nicht pflegen wollen. Jede Anfrage wird gegen 1.600+ KI-Agent-Profile gefingerprintet, auf Cross-Layer-Konsistenz geprüft und an eine Per-Agent-Policy dispatcht — blockieren, zulassen, challengen oder kassieren — in unter 2 ms am Edge. Die Blocklist bleibt aktuell, weil die Fingerprints aktuell bleiben.

Wichtige Erkenntnisse

Verifikation ist keine Erkennung. Erkennung fragt, ob der Client automatisiert ist. Verifikation fragt, ob die Automatisierung ist, was sie zu sein behauptet, und jede Zahl von Cloudflare Radar, Tollbit und HUMAN Security zeigt, dass sich diese Lücke schnell weitet.

Die Signale stapeln sich. User Agent ist kostenlos und fälschbar. Veröffentlichte IP-Bereiche und Reverse-DNS sind billig und schwer zu fälschen, wenn das Verzeichnis gepflegt bleibt. TLS- und HTTP/2-Fingerprints fangen den langen Schwanz. Kryptografische Request-Signierung ist die Zukunft, nicht die Gegenwart. Jedes einzelne Signal isoliert ist ein Münzwurf. Die Kombination ist ein Urteil.

Die Reaktion ist Policy, keine einzelne Einstellung. Klare Spoofs blockieren, Uneindeutige challengen, alles, was sich ehrlich zu erkennen gibt, verify-and-allowen. Cloudflare Radars 2,98 %-Blockrate ist die aktuelle Antwort des Marktes.

Centinel fährt diese Entscheidungsschicht am Edge, mit einem gepflegten Verzeichnis von KI-Agent-Fingerprints und einer Policy-Engine, die pro Agent in unter 2 ms feuert. Für einen Publisher, der das Verzeichnis nicht selbst bauen und pflegen will, ist das die Verifikationspipeline in einem Baustein.

Sehen Sie, was Ihre Website gerade crawlt

Starten Sie ein kostenloses Audit und erhalten Sie einen detaillierten Bericht darüber, welche KI-Crawler auf Ihre Inhalte zugreifen.

Kostenloses Audit starten