智能体流量正在爆发式增长,而 robots.txt 只是一项建议。Agentscan 将 IP 来源与无头浏览器特征、JA4 指纹以及已验证允许列表相融合,把每个请求分类为真人、已验证的已知机器人、AI 智能体或恶意自动化,让你放行想要的爬虫并拦截不想要的。
请求
{
"ip": "198.51.100.7",
"user_agent": "Mozilla/5.0 HeadlessChrome/120",
"ja4": "t13d1516h2_8daaf6152771_...",
"headless_flags": { "webdriver": true },
"headers": { "Accept": "*/*" }
}响应
{
"class": "malicious_automation",
"confidence": 0.9,
"action": "block",
"signals": { "network_origin": "datacenter", "headless": true }
}AI 爬虫和无头抓取器如今占据了相当大一部分流量。有些是你想要的,例如让你的内容出现在合适的答案引擎中;有些则不是,例如训练数据抓取器和撞库者。单一的封锁列表无法区分它们,而一道把 Googlebot 也挡住的高墙会损害 SEO。
Agentscan 将共享 IP 引擎与请求级指纹及已验证允许列表相融合。
从引擎对数据中心、VPN、proxy 或干净住宅来源的判定出发,因为被伪装的来源会改变一切。
通过 User-Agent 以及 webdriver 等客户端信号,检测 HeadlessChrome、Playwright、Puppeteer、Selenium 和脚本化客户端。
一种能在 User-Agent 被伪造后依然有效的 TLS 客户端指纹,可将真实浏览器与冒充者区分开来。
评估请求头集合的“浏览器化”程度,因为真实浏览器会同时发送 Accept、Accept-Language 和 Accept-Encoding。
Googlebot、Bingbot 等通过正向确认的反向 DNS 来确认,而非依赖可被伪造的 User-Agent 字符串。
可识别 GPTBot、ClaudeBot、PerplexityBot、Google-Extended 等,让你按名称放行或拦截它们。
每个请求都恰好归入一个类别,并附带置信度和推荐动作。
使用真实浏览器的真实用户,因此请求予以放行。
如 Googlebot 或 Bingbot 这类已验证的良性机器人,予以放行且绝不被误拦。
如 GPTBot 或 ClaudeBot 这类已识别的 AI 抓取器,由你标记并按策略决定如何处理。
没有良性身份的无头自动化,通常来自被伪装的来源,因此请求予以拦截。
在边缘端使用代码片段采集的信号进行调用。判定结果由 Redis 缓存以实现低延迟。
请求
{
"ip": "198.51.100.7",
"user_agent": "Mozilla/5.0 HeadlessChrome/120",
"ja4": "t13d1516h2_8daaf6152771_...",
"headless_flags": { "webdriver": true },
"headers": { "Accept": "*/*" }
}响应
{
"class": "malicious_automation",
"confidence": 0.9,
"action": "block",
"signals": { "network_origin": "datacenter", "headless": true }
}放行你希望被收录的答案引擎,拦截训练数据抓取器,同时不误伤 Googlebot。
阻止无头自动化猛攻定价、库存和票务接口。
为来自被伪装 IP 的自动化所驱动的撞库和注册滥用增加阻力。
按名称逐一决定对 GPTBot、ClaudeBot、Perplexity 等爬虫是变现、放行还是拒绝。