BaiduSpider3.0升級了,抓取速度提升80%,帶大家一起來看看吧。
BaiduSpider升級到3.0,抓取速度提升80%
Baidu Spider上一次升級還要追溯到2010年。
那個時候,中國互聯(lián)網(wǎng)資源急劇擴張,從百億擴大到千億規(guī)模,因而spider系統(tǒng)進行了重構,從單機互聯(lián)轉變?yōu)榉植际接嬎阆到y(tǒng)。
但是有一個很大的缺點:延時嚴重!
而此次重構是把當前離線、全量計算為主的系統(tǒng),改造成實時、增量計算的全實時調度系統(tǒng),萬億規(guī)模的數(shù)據(jù)進行實時讀寫,可以收錄90%的網(wǎng)頁,速度提升80%!
一張圖以蔽之:
Baidu Spider3.0
一、鏈接發(fā)現(xiàn)方面
如今sipder每天發(fā)現(xiàn)的新鏈接在500億左右的量級,而在百度站長平臺提交鏈接是其中最為高效的,特此,工程師提醒站長不要過度提交鏈接,尤其是低質鏈接,這樣才能達到更好更及時的收錄效果。
二、鏈接抓取方面
策略上,開發(fā)了更強大的機器學習模型,來進行鏈接的質量預測,對庫中所有的鏈接進行全局排序,對有價值鏈接的召回率提高95%!
架構上,計算性能的強勁提升,對每天新增的數(shù)百億模塊的鏈接,完成實時計算,延時不到1秒;開發(fā)了更強大的存儲系統(tǒng),面對萬億規(guī)模的數(shù)據(jù)做到實時讀寫。
三、時效性頁面方面
中長尾站的福音!針對時效性資源,從原來的優(yōu)先對新浪、網(wǎng)易等大新聞站進行抓取,擴大到覆蓋全網(wǎng)的新聞、博客、論壇等站點進行快速抓取,大小站都能優(yōu)待。
打破老的平穩(wěn)抓取模型,采用按需抓取機制,對有時效性新資源,做到秒級抓取。
目前,每天收錄的時效性資源規(guī)模,擴大到原來的3倍,達到近1億量級!
四、死鏈方面
全新的死鏈識別模型,能識別各種協(xié)議死鏈、內容死鏈、跳轉死鏈等低質網(wǎng)頁。
其中無效低質網(wǎng)頁(如被黑),通過百度站長平臺提交,可加快檢索屏蔽的過程。
五、建庫方面
索引展現(xiàn)時效性提升,原來是10天左右,現(xiàn)在提升40%~80%不等!
最后總結一下原文中的植入廣告:
Spider3.0時代
站長平臺鏈接提交工具,可以讓抓取快上加快!
站長平臺死鏈提交工具,可以讓檢索屏蔽過程快上加快!
請問,你的網(wǎng)站驗證了嗎?
評論(0人參與,0條評論)
發(fā)布評論
最新評論