3 月 21 日消息,隨著AI時代的來臨,AI爬蟲也越來越多,很多網(wǎng)站的服務(wù)器資源也越來越不夠用,原因是大量的AI爬蟲爬取網(wǎng)站內(nèi)容,占用了大量的服務(wù)器資源,主機幫的一個客戶就是爬蟲問題,原本只需5M的帶寬,結(jié)果被爬蟲爬取使得服務(wù)器帶寬長期運行在15M以上,為此,需要利用Web應(yīng)用防火墻攔截,國內(nèi)一些服務(wù)商還開發(fā)了bot防護功能,不過價格并不便宜,比如百度云防護需要企業(yè)版才支持Bot防護,而阿里云、騰訊云也有類似的功能,不過是按攔截次數(shù)收費,價格非常昂貴。
相比之下國外網(wǎng)絡(luò)服務(wù)商 Cloudflare非常良心,當(dāng)?shù)貢r間本月 19 日發(fā)布了一項名為 AI Labyrinth 的有趣功能:利用 AI 生成內(nèi)容以非禁止的方式干擾不遵守“禁止爬取”聲明的 AI 爬蟲和其它惡意內(nèi)容爬取機器人。
Labyrinth 一詞的含義即“迷宮”。

根據(jù) Cloudflare 的觀察,直接硬性禁止惡意爬蟲容易激起爬取和反爬兩方無休止的“軍備競賽”,與其陷入一場漫長的對抗中不如讓爬蟲“以為”得到了真實的內(nèi)容實際上卻一無所獲。
AI Labyrinth 的具體運作方式是在頁面中設(shè)置人類使用者無法看到或點擊的隱藏鏈接,僅有惡意爬蟲才會注意到它們。而這些鏈接指向一系列由 AI 生成的頁面,爬蟲的時間和資源會浪費在這些非真實網(wǎng)站中。
這一功能也意味僅有惡意 AI 爬蟲才會陷入到 AI Labyrinth 編織的內(nèi)容迷宮中,Cloudflare 能更好了解這些爬蟲的行為特征,從而為機器人識別提供數(shù)據(jù)基礎(chǔ)。
Cloudflare 表示 AI Labyrinth 向包括免費客戶在內(nèi)的全部使用者提供。
不過,Cloudflare雖然良心,但其的網(wǎng)絡(luò)在國內(nèi)體驗并不好,不僅訪問慢,而且長期被屏蔽狀態(tài),所以并不適合給國內(nèi)用戶訪問。