智能体检测

真人、良性机器人和 AI 智能体, 一次请求即可分辨。

智能体流量正在爆发式增长,而 robots.txt 只是一项建议。Agentscan 将 IP 来源与无头浏览器特征、JA4 指纹以及已验证允许列表相融合,把每个请求分类为真人、已验证的已知机器人、AI 智能体或恶意自动化,让你放行想要的爬虫并拦截不想要的。

4
判定类别
< 50ms
缓存判定延迟
JA4
TLS 客户端指纹
rDNS
正向确认的允许列表
POST/v1/agentscan/check

请求

{
  "ip": "198.51.100.7",
  "user_agent": "Mozilla/5.0 HeadlessChrome/120",
  "ja4": "t13d1516h2_8daaf6152771_...",
  "headless_flags": { "webdriver": true },
  "headers": { "Accept": "*/*" }
}

响应

{
  "class": "malicious_automation",
  "confidence": 0.9,
  "action": "block",
  "signals": { "network_origin": "datacenter", "headless": true }
}
为何此刻

管理智能体流量,而非一味拦截

AI 爬虫和无头抓取器如今占据了相当大一部分流量。有些是你想要的,例如让你的内容出现在合适的答案引擎中;有些则不是,例如训练数据抓取器和撞库者。单一的封锁列表无法区分它们,而一道把 Googlebot 也挡住的高墙会损害 SEO。

  • AI 智能体代表用户去抓取,因此一刀切的封锁会让你损失触达和收入。
  • Headless Chrome、Playwright 和 Puppeteer 能以假乱真地冒充真实浏览器。
  • robots.txt 仅供参考,因此守规矩的机器人会遵守它,而抓取器会无视它。
  • 你需要放行已验证的 Googlebot 和选定的 AI 爬虫,同时拦截其余的。
工作原理

从网络层一直到请求层的身份识别

Agentscan 将共享 IP 引擎与请求级指纹及已验证允许列表相融合。

IP 来源类别

从引擎对数据中心、VPN、proxy 或干净住宅来源的判定出发,因为被伪装的来源会改变一切。

无头与自动化特征

通过 User-Agent 以及 webdriver 等客户端信号,检测 HeadlessChrome、Playwright、Puppeteer、Selenium 和脚本化客户端。

JA4 TLS 指纹

一种能在 User-Agent 被伪造后依然有效的 TLS 客户端指纹,可将真实浏览器与冒充者区分开来。

请求头一致性

评估请求头集合的“浏览器化”程度,因为真实浏览器会同时发送 Accept、Accept-Language 和 Accept-Encoding。

已验证允许列表

Googlebot、Bingbot 等通过正向确认的反向 DNS 来确认,而非依赖可被伪造的 User-Agent 字符串。

AI 爬虫识别

可识别 GPTBot、ClaudeBot、PerplexityBot、Google-Extended 等,让你按名称放行或拦截它们。

判定

四个类别,各对应一个动作

每个请求都恰好归入一个类别,并附带置信度和推荐动作。

真人

使用真实浏览器的真实用户,因此请求予以放行。

已知机器人

如 Googlebot 或 Bingbot 这类已验证的良性机器人,予以放行且绝不被误拦。

AI 智能体

如 GPTBot 或 ClaudeBot 这类已识别的 AI 抓取器,由你标记并按策略决定如何处理。

恶意自动化

没有良性身份的无头自动化,通常来自被伪装的来源,因此请求予以拦截。

API

发送请求信号,获取一个类别和一个动作。

在边缘端使用代码片段采集的信号进行调用。判定结果由 Redis 缓存以实现低延迟。

POST/v1/agentscan/check

请求

{
  "ip": "198.51.100.7",
  "user_agent": "Mozilla/5.0 HeadlessChrome/120",
  "ja4": "t13d1516h2_8daaf6152771_...",
  "headless_flags": { "webdriver": true },
  "headers": { "Accept": "*/*" }
}

响应

{
  "class": "malicious_automation",
  "confidence": 0.9,
  "action": "block",
  "signals": { "network_origin": "datacenter", "headless": true }
}
应用场景

Agentscan 在哪些场景中物有所值

内容与 SEO 保护

放行你希望被收录的答案引擎,拦截训练数据抓取器,同时不误伤 Googlebot。

反抓取与反抢购

阻止无头自动化猛攻定价、库存和票务接口。

账户安全

为来自被伪装 IP 的自动化所驱动的撞库和注册滥用增加阻力。

AI 流量策略

按名称逐一决定对 GPTBot、ClaudeBot、Perplexity 等爬虫是变现、放行还是拒绝。

常见问题

你的疑问,这里有答案

Agentscan 采用正向确认的反向 DNS。它查询该 IP 的 PTR 记录,检查其是否以 googlebot.com 等官方域名结尾,然后将该主机名再解析回去并确认与该 IP 匹配。来自错误网络的伪造 Googlebot User-Agent 无法通过这一核验,因而不会被当作已知机器人。

本周即可上线 Agentscan

一次 REST 调用,提供免费套餐起步,并使用驱动每一次 IPScanner 查询的同一套引擎。

无需信用卡即可开始