Le trafic agentique explose et robots.txt n'est qu'une suggestion. Agentscan classe chaque requête comme humain, bot connu vérifié, agent IA ou automatisation malveillante en fusionnant l'origine IP avec les indices sans interface, les empreintes JA4 et une liste d'autorisation vérifiée, afin que vous puissiez autoriser les crawlers que vous voulez et bloquer ceux que vous ne voulez pas.
requête
{
"ip": "198.51.100.7",
"user_agent": "Mozilla/5.0 HeadlessChrome/120",
"ja4": "t13d1516h2_8daaf6152771_...",
"headless_flags": { "webdriver": true },
"headers": { "Accept": "*/*" }
}réponse
{
"class": "malicious_automation",
"confidence": 0.9,
"action": "block",
"signals": { "network_origin": "datacenter", "headless": true }
}Les crawlers IA et les scrapers sans interface représentent désormais une part énorme du trafic. Certains, vous les voulez, comme votre contenu dans les bons moteurs de réponse, et d'autres non, comme les scrapers d'entraînement et les bourreurs d'identifiants. Une simple liste de blocage ne peut pas les distinguer, et un mur nuit au SEO lorsqu'il attrape Googlebot.
Agentscan fusionne le moteur IP partagé avec les empreintes au niveau de la requête et une liste d'autorisation vérifiée.
Part du verdict du moteur, datacenter, VPN, proxy ou résidentiel propre, car une origine masquée change tout.
Détecte HeadlessChrome, Playwright, Puppeteer, Selenium et les clients scriptés à partir du User-Agent et de signaux côté client comme webdriver.
Une empreinte de client TLS qui résiste à un User-Agent falsifié, séparant les vrais navigateurs des imposteurs.
Évalue à quel point l'ensemble des en-têtes ressemble à celui d'un navigateur, puisque les vrais navigateurs envoient Accept, Accept-Language et Accept-Encoding ensemble.
Googlebot, Bingbot et consorts sont confirmés par DNS inverse confirmé en direct plutôt que par une chaîne User-Agent falsifiable.
Connaît GPTBot, ClaudeBot, PerplexityBot, Google-Extended et d'autres, afin que vous puissiez les autoriser ou les bloquer par nom.
Chaque requête tombe dans exactement une classe avec un niveau de confiance et une action recommandée.
Une vraie personne dans un vrai navigateur, la requête est donc autorisée.
Un bon bot vérifié tel que Googlebot ou Bingbot qui est autorisé et jamais bloqué par accident.
Un récupérateur IA identifié tel que GPTBot ou ClaudeBot que vous signalez et arbitrez selon votre politique.
Une automatisation sans interface sans identité valable, souvent d'une origine masquée, la requête est donc bloquée.
Appelez-la depuis le edge avec les signaux collectés par l'extrait. Les verdicts sont mis en cache par Redis pour une faible latence.
requête
{
"ip": "198.51.100.7",
"user_agent": "Mozilla/5.0 HeadlessChrome/120",
"ja4": "t13d1516h2_8daaf6152771_...",
"headless_flags": { "webdriver": true },
"headers": { "Accept": "*/*" }
}réponse
{
"class": "malicious_automation",
"confidence": 0.9,
"action": "block",
"signals": { "network_origin": "datacenter", "headless": true }
}Autorisez les moteurs de réponse que vous voulez voir indexés et bloquez les scrapers d'entraînement, sans anéantir Googlebot.
Arrêtez l'automatisation sans interface qui martèle les points de terminaison de prix, de stock et de billetterie.
Ajoutez de la friction au bourrage d'identifiants et à l'abus d'inscription pilotés par l'automatisation depuis des IP masquées.
Décidez par crawler s'il faut monétiser, autoriser ou refuser GPTBot, ClaudeBot, Perplexity et d'autres, par nom.