Grundlagen·7 Min. Lesezeit

Was ist Web-Scraping?

Wie Web-Scraping funktioniert, warum Firmen es betreiben, die Rechtslage und was sich durch KI geändert hat.

Was ist Web-Scraping?

Web-Scraping ist die automatisierte Extraktion von Daten aus Websites. Ein Scraper sendet Anfragen an einen Webserver, empfängt die HTML-Antwort und extrahiert die benötigten Daten: Produktpreise, Artikeltexte, Lagerbestandszahlen, redaktionelle Inhalte.

Die Technik ist so alt wie das kommerzielle Web. Was sich 2026 geändert hat, ist der Umfang und der Zweck.

Warum Web-Scraping gerade jetzt wichtig ist

Web-Scraping bedient viele Zwecke. Preisvergleichsseiten, Marktforschung, Recruiting, Wettbewerbsanalyse — und zunehmend KI-Unternehmen, die das gesamte Web absuchen, um Modelle zu trainieren.

Tollbit’s Q4 2025 State of the Bots zeigt die Größenordnung: von 550 Milliarden analysierten Website-Besuchen waren 9 Milliarden KI-Bot-Scrapes, 2,9 Milliarden davon umgingen robots.txt. Bei Publishern lag das Verhältnis KI-Bot zu Mensch bei 1 zu 31, zwei Quartale zuvor noch bei 1 zu 50.

Die Rechtslage variiert nach Jurisdiktion. In den USA bieten der Computer Fraud and Abuse Act und Urheberrecht begrenzten Schutz, die Durchsetzung ist uneinheitlich. In der EU schützt die Datenbankrichtlinie strukturierte Daten stärker. Mehrere Klagen gegen OpenAI und Anthropic prüfen, ob KI-Training als Fair Use gilt. Das Recht holt auf; die Infrastruktur muss in der Zwischenzeit halten.

Arten von Web-Scraping

Vier Arten von Scraper-Traffic tauchen in Produktionsumgebungen auf. **Persönliche und Forschungs-Tools**: ein Entwickler mit BeautifulSoup, eine Journalistin mit einem Python-Skript. Klein, identifizierbar, meist einfach zu begrenzen. **Kommerzielle Scraping-Dienste**: BrightData, Oxylabs, ScraperAPI — rotierende Residential-Proxies, Browser-Automatisierung, CAPTCHA-Lösung. Erkennung deutlich schwieriger. **KI-Trainings-Crawler**: GPTBot, ClaudeBot, Google-Extended, Bytespider, Applebot-Extended, CCBot — meist identifiziert und meist regelkonform, das Problem ist die lange Liste der unmarkierten Trainings-Crawler. **Adversariale Scraper**: zielen auf Paywall-Inhalte oder Wettbewerbsdaten, nutzen gepatchtes Chromium, curl-impersonate oder eigene TLS-Bibliotheken, um einen echten Browser byte-genau zu reproduzieren.

Wie Web-Scraping funktioniert

Im Kern ist ein Scraper ein Programm, das Webseiten herunterlädt und Daten aus dem HTML extrahiert. Moderne Scraper sind deutlich raffinierter: Sie rendern JavaScript, lösen CAPTCHAs, rotieren durch Proxy-Netzwerke und imitieren echtes Browserverhalten bis hin zu Mausbewegungen.

Die Anfrage ist HTTP. Was der Scraper steuert: User-Agent, TLS-Handshake, HTTP/2-Settings, Cookie-Jar, Timing. Was er nicht vollständig steuert: die Konsistenz über diese Schichten. Eine Python-Bibliothek, die sich als Chrome ausgibt, sendet einen TLS-Fingerprint, der die Täuschung im ersten Byte verrät.

Wie Sie Scraping auf Ihrer Website identifizieren

Vier Signale zeigen, dass Scraping läuft — keines ist allein entscheidend, zusammen schon. **Traffic-Anomalien**: sprunghafte Anstiege bei Produkt- oder Artikelseiten, besonders außerhalb der Bürozeiten. **User-Agent-Ehrlichkeit**: ein Chrome-User-Agent aus einem Cloud-ASN ist verdächtig; ein GPTBot-User-Agent aus einer IP außerhalb der OpenAI-Range ist ein Imitator. **Rate-Muster**: Menschen verweilen, Automation schlägt im Takt zu. **Herkunftswechsel und Proxy-Signale**: zwanzig Seiten aus zwanzig verschiedenen ISPs derselben Stadt sind ein Scraper mit zwanzig Masken.

Wie Sie unerwünschtes Scraping verhindern

Effektiver Anti-Scraping-Schutz braucht mehrere Ebenen: Ratenbegrenzung, IP-Reputationsanalyse, TLS-Fingerprinting, Verhaltensanalyse und Crawler-Identifikation. Keine einzelne Technik reicht, weil Scraper sich anpassen. Das Ziel ist ökonomisch: Machen Sie Scraping teurer, als die Daten wert sind, und die Angreifer wechseln zu leichteren Zielen.

Fangen Sie am Edge an, bevor die Anfrage das Origin erreicht. Abgleich von TLS-Fingerprint und HTTP/2-SETTINGS mit bekannten Bibliotheks-Signaturen. Prüfung der User-Agent-Konsistenz. Für das lange Ende der Skala: Abgleich mit einer Fingerprint-Datenbank — Centinel pflegt 1.600+ — und pro Anfrage blockieren, herausfordern oder beobachten.

Key Takeaways

- Web-Scraping 2026 wird von KI-Trainings- und Retrieval-Crawlern dominiert, nicht von klassischen Preis-Scrapern (Tollbit: 9 Milliarden KI-Bot-Scrapes von 550 Milliarden Besuchen). - Vier Scraper-Klassen verlangen unterschiedliches Handling: persönliche Tools, kommerzielle Dienste, KI-Trainings-Crawler, adversariale Scraper. - Erkennung ist ein schichtübergreifendes Problem: User-Agents, TLS-Fingerprints, HTTP/2-Settings und Verhaltensmuster zusammen erkennen, was einzelne Signale verfehlen. - Prävention ist ökonomisch, nicht absolut. Scraping teurer machen, als es sich lohnt.

Sehen Sie, was Ihre Website gerade crawlt

Starten Sie ein kostenloses Audit und erhalten Sie einen detaillierten Bericht darüber, welche KI-Crawler auf Ihre Inhalte zugreifen.

Kostenloses Audit starten