Saltar al contenido
Fundamentos·8 min de lectura

¿Qué es el tráfico de agentes de IA?

El tráfico de agentes de IA es una nueva clase de tráfico — crawlers de entrenamiento, crawlers de recuperación, flujos agénticos y scrapers suplantados. En qué se diferencia de los bots clásicos y qué puede hacer un publisher.

¿Qué es el tráfico de agentes de IA?

El tráfico de agentes de IA es tráfico web automatizado generado por software que actúa en nombre de un modelo de lenguaje grande, un sistema de recuperación aumentada por generación o un agente autónomo que ejecuta tareas. No es lo mismo que el tráfico de bots clásico. Un scraper clásico extrae datos según un calendario para su operador. Un agente de IA pide una página porque un modelo — o un usuario preguntando al modelo — decide, en ese momento, que el contenido hace falta para responder una pregunta, completar una compra o llenar una ventana de contexto.

Cuatro clases de software lo producen. Crawlers de entrenamiento como GPTBot, ClaudeBot, Google-Extended y Applebot-Extended barren la web para construir corpus de entrenamiento. Crawlers de recuperación como PerplexityBot y OAI-SearchBot piden páginas en tiempo real para responder la pregunta de un usuario. El tráfico agent-on-behalf-of-user viene de agentes ChatGPT, del Claude de Anthropic para navegación y de frameworks agénticos emergentes que envían formularios y hacen clic en enlaces por una persona. Y una larga cola de scrapers sin identificar — cohere-ai, CCBot, Meta-ExternalAgent y una lista creciente de startups que rastrean tras proxies residenciales — queda entre medias.

Derriba la antigua distinción entre bot y visitante. La petición llega de un cliente automatizado. La intención detrás nació, segundos antes, con una persona preguntándole algo a un chatbot.

Por qué el tráfico de agentes de IA importa ahora

El volumen es la respuesta corta. El informe Intelligence 2025 de HUMAN Security midió un crecimiento del tráfico de agentes de IA del 7.851 % durante 2025. Cloudflare Radar reporta que el 39 % de los sitios top de un millón fueron accedidos por bots de IA a comienzos de 2026, mientras que sólo el 2,98 % de esos sitios los bloquea activamente. El informe Q4 2025 de Tollbit mostró en sitios de publishers una proporción de 1 visita de bot de IA por cada 31 visitas humanas, frente a 1 en 50 dos trimestres antes.

El ancho de banda es la segunda respuesta. Cloudflare midió que la ratio crawl-a-referral de Anthropic rondaba los 500.000 a 1 a lo largo de 2025 — medio millón de páginas pedidas por cada visitante devuelto — y el tráfico de crawl de entrenamiento subió un 65 % en seis meses. Cada página pedida es coste de origen. Cada barrido de archivo es un fallo de caché.

La tercera respuesta es comercial. Los agentes de IA son el nuevo intermediario entre su contenido y el lector. Un artículo de publisher leído dentro de ChatGPT, resumido por Perplexity o citado en una AI Overview no produce impresión publicitaria, ni aviso de suscripción, ni relación directa con el lector. El tráfico es real. La vía de monetización no.

El bot management clásico fue construido para otro problema. Bloquear scrapers y bloquear agentes de IA no son la misma decisión, y tratarlos igual le corta de un canal de búsqueda en el que quiere estar, o deja pasar un crawler de entrenamiento al que preferiría cobrar.

Tipos de tráfico de agentes de IA

Aparecen cuatro tipos distintos en los logs del servidor, cada uno con implicaciones comerciales distintas.

**Crawlers de entrenamiento.** Operados por empresas de modelos para construir conjuntos de entrenamiento. GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended, Bytespider (ByteDance), Applebot-Extended y CCBot (Common Crawl, cuyos datos alimentan a muchas empresas de modelos más pequeñas) son los ejemplos principales. Estos crawlers barren ancho y vuelven a menudo. Sus peticiones son los candidatos más claros a licenciamiento: el operador tiene presupuesto para adquisición de datos, y la presión legal sobre el entrenamiento sin licencia va en aumento.

**Crawlers de recuperación y grounding.** Piden páginas en el momento de la consulta para dar base a la respuesta de un modelo. PerplexityBot, OAI-SearchBot (el crawler de búsqueda de OpenAI, separado de GPTBot) y ChatGPT-User son los nombrados. Tollbit midió que ChatGPT-User en concreto accedió al 42 % de los sitios que lo habían bloqueado explícitamente. Estos crawlers están más cerca de los indexadores de búsqueda que de los de entrenamiento, pero no envían tráfico de referral como Googlebot.

**Tráfico agéntico.** Generado por agentes de IA que actúan por un usuario humano concreto. Un agente ChatGPT consultando precios de vuelos. Un agente Claude de Anthropic documentándose para un trabajo. Browser-use y frameworks similares que recorren un flujo por cuenta de un usuario. La petición viene de un navegador headless corriendo en infraestructura cloud, a menudo enrutado por proxies residenciales, con un comportamiento que parece humano hasta que deja de parecerlo.

**Crawlers sin identificar y suplantados.** La categoría más grande y más sucia. cohere-ai, Meta-ExternalAgent y una larga lista de operadores menores. Servicios de scraping comerciales (BrightData, Oxylabs, ScraperAPI) que venden acceso a pools rotatorios de IPs residenciales. Crawlers de entrenamiento y recuperación que se niegan a identificarse. El informe de DataDome de 2024 encontró que el 95 % de los ataques avanzados de bots escapa a la inspección pasiva, y el 83 % de los bots simples basados en curl pasan sin detectar. El tráfico sin identificar es por donde se escurren los ingresos por licenciamiento.

Cómo funciona el tráfico de agentes de IA

Mecánicamente, el tráfico de agentes de IA es HTTP. Cada petición tiene un user agent, un handshake TLS, un conjunto de ajustes HTTP/2 y un cuerpo. Lo que separa al tráfico de agentes de IA del tráfico de navegador es el stack de software que hace la petición y la intención detrás.

Los crawlers de entrenamiento son lo más simple. Corre un planificador, un fetcher abre una conexión HTTP, un parser extrae texto y enlaces, el resultado aterriza en un dataset. GPTBot y ClaudeBot publican rangos de IP y en general respetan robots.txt. Su huella en los logs es predecible: un user agent consistente, un fingerprint TLS consistente, una cadencia estable de peticiones.

Los crawlers de recuperación son con estado. Cuando un usuario le hace una pregunta a un chatbot, el modelo decide qué páginas pedir. PerplexityBot o OAI-SearchBot abre conexiones a esas URL concretas, recoge el contenido y lo devuelve al modelo en pocos segundos. El patrón de peticiones es a ráfagas — muchas páginas de dominios distintos pedidas en paralelo — y lo marca el volumen de consultas, no un calendario de crawl.

El tráfico agéntico es el más difícil de caracterizar. Un agente de IA ejecutando un flujo puede usar una build parcheada de Chromium, un navegador headless o un cliente HTTP directo, según si la tarea requiere ejecutar JavaScript. Muchos van por proxies residenciales para esquivar el rate-limiting. Algunos usan curl-impersonate, uTLS o librerías equivalentes para reproducir byte a byte el handshake TLS de un navegador real. El user-agent string es el que el operador haya decidido enviar.

La suplantación es la táctica dominante al final de la cola larga. Un scraper rota por miles de IPs residenciales, cambia user agents por petición y usa una librería TLS que reproduce el fingerprint JA3/JA4 de Chrome. Por fuera, el tráfico no se distingue de un visitante humano. Sólo cuando compara señales entre capas — handshake TLS, frame SETTINGS de HTTP/2, patrón de comportamiento, tasa de peticiones — aparece la incongruencia.

Cómo identificar el tráfico de agentes de IA

Los user agents son el punto de partida, no la respuesta. GPTBot, ClaudeBot, Google-Extended, Applebot-Extended, PerplexityBot, cohere-ai, CCBot, Meta-ExternalAgent — los operadores grandes publican sus strings. Cruzarlos contra sus logs identifica el tráfico regulado, que es el que ya daba menos problemas.

Para el resto, necesita señales a nivel de petición que el cliente no controle por completo.

**Fingerprinting TLS.** El client hello de un handshake TLS expone los cipher suites, las extensiones y el orden de extensiones de la librería subyacente. El módulo requests de Python produce una firma, curl otra, Chrome real otra. JA4 (y sus sucesores JA4S, JA4H) resumen esas señales en un fingerprint resistente a la aleatorización de extensiones. Cloudflare sigue unos 15 millones de fingerprints JA4 únicos por día en su edge. Un stack TLS de Python diciendo ser Chrome queda cazado antes de que llegue el cuerpo HTTP.

**Ajustes HTTP/2.** Chrome envía un WINDOW_UPDATE de ~15 MB en su primer frame SETTINGS. Firefox envía ~12,5 MB. La mayoría de las librerías HTTP envían cero. El orden de los pseudo-cabeceras (`:method`, `:authority`, `:scheme`, `:path`) está fijo por navegador y no coincide con lo que las librerías envían por defecto.

**Patrones de comportamiento.** Cadencia de peticiones, patrones de rutas, intervalos de revisita y coherencia de sesión. Un lector real leyendo un artículo se queda. Un crawler de entrenamiento va a ritmo constante. Un scraper suplantado se lanza por cien páginas en un minuto.

**Consistencia entre capas.** El chequeo decisivo. Una petición que dice ser Chrome vía user agent, trae un fingerprint TLS de curl-impersonate y tiene ajustes HTTP/2 de una librería Go es un agente de IA que ha mentido dos veces. Cualquier señal aislada es suplantable. La combinación no, porque las librerías de suplantación no cubren todas las capas con consistencia.

Cómo responder al tráfico de agentes de IA

Tiene tres respuestas disponibles una vez identificado el tráfico: bloquear, verificar o monetizar. Escoja por agente, no por fuente de tráfico.

**Bloquear.** Para crawlers de entrenamiento que no ha licenciado. Para scrapers que ignoran robots.txt. Para tráfico suplantado que no pasa la consistencia entre capas. Bloquee en el edge para que el origen no vea la petición y su factura de ancho de banda no crezca por ella.

**Verificar y permitir.** Para indexadores de búsqueda en los que quiere aparecer. Para agentes socios. Para tráfico agent-on-behalf-of-user que quiere dejar pasar pero auditar. Deje pasar la petición con un sello de confianza firmado, registre la identidad del agente y vigile el volumen acumulado por operador. Googlebot, Bingbot y los user agents verificados de búsqueda-IA van en allowlist por defecto — la tasa de bloqueo del 2,98 % que midió Cloudflare muestra que la mayoría de operadores no se cortan de la búsqueda.

**Monetizar.** Para crawlers de entrenamiento que van a pagar una tarifa de licencia. Para crawlers de recuperación cuyos operadores pueden compartir ingresos. La conversación comercial está viva. OpenAI, Perplexity y Google han firmado acuerdos de licenciamiento con publishers. Cobrar a un crawler no licenciado por petición, por artículo o en licencia en bulk es la tercera palanca — una palanca que el bot management clásico no tenía.

robots.txt por sí solo no va a ejecutar nada de esto. Tollbit midió que el 30 % de los scrapes de bots de IA en Q4 2025 ignoraron permisos explícitos de robots.txt. El fichero es un aviso por cortesía. El cumplimiento vive en el edge, en una capa que inspecciona la petición antes de que llegue al origen.

Puntos clave

El tráfico de agentes de IA no es el tráfico de bots clásico. Es una categoría nueva que incluye crawlers de entrenamiento, crawlers de recuperación, flujos agénticos y una cola larga de scrapers sin identificar. El volumen ya es grande y crece rápido — HUMAN Security midió un 7.851 % de crecimiento en 2025, Cloudflare ve un 39 % de sitios top accedidos por bots de IA, y Tollbit ve una proporción de 1 a 31 entre bot-IA y humano en contenido de publishers.

La respuesta no es un único ajuste. Cada clase de agente pide una decisión distinta: bloquear crawlers de entrenamiento no licenciados, verificar y permitir indexadores de búsqueda y agentes socios, monetizar a los operadores que pagarán, y descartar el tráfico suplantado que no pase los controles entre capas. robots.txt es donde empieza la conversación. El cumplimiento pasa en el edge.

Centinel identifica más de 1.600 fingerprints de agentes de IA en tiempo real, aplica controles de señal TLS y HTTP/2 que sobreviven a la suplantación de user agent, y ejecuta decisiones de bloquear, verificar o monetizar por agente en menos de 2 ms. Esa es la capa entre usted y el 7.851 % de tráfico nuevo que no pidió permiso.

Mira qué está rastreando tu sitio ahora mismo

Ejecuta una auditoría gratuita y obtén un informe detallado de qué crawlers IA acceden a tu contenido.

Obtén tu auditoría gratis
¿Qué es el tráfico de agentes de IA? | Centinel Analytica