Agentic 流量正在爆發,而 robots.txt 只是一項建議。Agentscan 透過將 IP 來源與無頭瀏覽器特徵、JA4 指紋及已驗證白名單融合在一起,把每個請求分類為真人、已驗證的已知 bot、AI Agent 或惡意自動化,讓你能允許想要的爬蟲並封鎖不想要的爬蟲。
請求
{
"ip": "198.51.100.7",
"user_agent": "Mozilla/5.0 HeadlessChrome/120",
"ja4": "t13d1516h2_8daaf6152771_...",
"headless_flags": { "webdriver": true },
"headers": { "Accept": "*/*" }
}回應
{
"class": "malicious_automation",
"confidence": 0.9,
"action": "block",
"signals": { "network_origin": "datacenter", "headless": true }
}AI 爬蟲與無頭抓取程式如今佔據了流量的一大部分。有些你想要,例如讓你的內容出現在合適的答案引擎中;有些你不想要,例如訓練用抓取程式與撞庫攻擊者。單一封鎖清單無法分辨它們,而當一道牆攔下 Googlebot 時,更會損害 SEO。
Agentscan 將共用 IP 引擎與請求層級的指紋及已驗證白名單融合在一起。
由引擎對數據中心、VPN、proxy 或乾淨住宅的判定開始,因為遭遮蔽的來源會改變一切。
從 User-Agent 加上 webdriver 等客戶端訊號偵測 HeadlessChrome、Playwright、Puppeteer、Selenium 與腳本化客戶端。
一種即使 User-Agent 遭偽造仍能存活的 TLS 客戶端指紋,將真實瀏覽器與冒充者區分開來。
評估標頭組合有多像瀏覽器,因為真實瀏覽器會同時送出 Accept、Accept-Language 與 Accept-Encoding。
Googlebot、Bingbot 等是透過正向確認反向 DNS 來確認,而非靠可偽造的 User-Agent 字串。
認得 GPTBot、ClaudeBot、PerplexityBot、Google-Extended 等,讓你能按名稱允許或封鎖它們。
每個請求都會準確落入一個類別,並帶有信心度與建議動作。
使用真實瀏覽器的真實用戶,因此請求獲准。
Googlebot 或 Bingbot 等已驗證的良性 bot,獲准通過且絕不會被誤封。
GPTBot 或 ClaudeBot 等已識別的 AI 抓取程式,由你按政策標記並作決定。
沒有良性身份的無頭自動化,往往來自遭遮蔽的來源,因此請求遭封鎖。
從邊緣節點以程式碼片段收集的訊號進行呼叫。判定會經 Redis 快取以達低延遲。
請求
{
"ip": "198.51.100.7",
"user_agent": "Mozilla/5.0 HeadlessChrome/120",
"ja4": "t13d1516h2_8daaf6152771_...",
"headless_flags": { "webdriver": true },
"headers": { "Accept": "*/*" }
}回應
{
"class": "malicious_automation",
"confidence": 0.9,
"action": "block",
"signals": { "network_origin": "datacenter", "headless": true }
}允許你想被索引的答案引擎並封鎖訓練用抓取程式,同時不會誤殺 Googlebot。
阻止無頭自動化猛攻定價、庫存與門票端點。
為來自遭遮蔽 IP 的自動化所驅動的撞庫與註冊濫用增添阻力。
按名稱逐一決定是否將 GPTBot、ClaudeBot、Perplexity 等變現、允許或拒絕。