觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
我所在的網(wǎng)站算是一個大型網(wǎng)站,百度收錄3000萬,每天百度爬蟲抓取總次數(shù)在500w次左右,單頁的百度收錄率 80%,看起來已經(jīng)是一個相當(dāng)不錯的數(shù)據(jù),但分析一下詳細(xì)的日志文件,還是可以發(fā)現(xiàn)一些問題,
1.大型網(wǎng)站的列表頁為了方便用戶查找所需信息,通常會設(shè)置多重的篩選條件(Facet Navigation),但爬蟲并沒有智能到可以自主判斷哪些條件可以組合,哪些條件組合起來沒有意義,只要在代碼里面有鏈接就會去抓取,導(dǎo)致百度爬蟲耗費(fèi)了大量資源在列表篩選頁上。分析了一個月的數(shù)據(jù),發(fā)現(xiàn)百度的抓取量有30%消耗在列表頁,但是列表頁帶來的百度自然流量僅占所有百度自然流量的2%,所以對網(wǎng)站的列表頁來說,爬蟲的投入產(chǎn)出非常低。
2.重復(fù)抓取現(xiàn)象嚴(yán)重。 我個人覺得,對網(wǎng)站來說,只被爬蟲抓取過1次的頁面(Distinct Crawl)最有價值,因?yàn)閷σ粡埍旧韮?nèi)容質(zhì)量還可以的頁面來說,只要被抓取過一次,收錄的幾率就超過80%。如果頁面本身質(zhì)量不行,即使被抓取過幾十次,也依然不會被收錄。 繼續(xù)分析我們網(wǎng)站的數(shù)據(jù),發(fā)現(xiàn)在百度爬蟲一天500w的抓取中,有超過一半的抓取是對相同頁面的多次抓取,如果能把這些重復(fù)的抓取轉(zhuǎn)移到那些一次都沒被抓過的頁面上,對網(wǎng)站的價值無疑更大。
如何解決這兩個問題?
先說第一個,針對篩選頁消耗爬蟲資源問題,很多人都建議使用nofollow標(biāo)簽告訴爬蟲,不要繼續(xù)給這些頁面分配權(quán)重,我們也這么做過。但事實(shí)證明百度爬蟲對nofollow并不敏感,使用之后爬蟲依舊瘋狂抓取,同時也沒有把權(quán)重從篩選頁面上轉(zhuǎn)移到規(guī)范頁面上。
無奈之下,我們只好考慮起用SEO的大殺器:Robots文件,把所有的篩選頁面全部disallow掉,之前沒有使用robots禁止抓取的原因是擔(dān)心萬一爬蟲被禁止抓取列表后,會不會其他的頁面也不抓了?畢竟列表篩選頁還是會給單頁貢獻(xiàn)大量入口,但基于我們網(wǎng)站單頁收錄還不錯的現(xiàn)狀,還是決定嘗試一下。
事實(shí)證明,效果非常明顯,新版的robots上線三天后,列表頁的爬蟲抓取量下降到15%;同時之前擔(dān)心的問題也沒有發(fā)生,爬蟲的抓取總量不但沒有下降,反而增長了10%左右,單頁的抓取量也上升了20%,可以算是達(dá)到了我們的預(yù)期目標(biāo):把列表頁浪費(fèi)的爬蟲資源轉(zhuǎn)移到其他需要被抓取的頁面上。
但是如何證明抓取資源是被轉(zhuǎn)移到需要被抓取的頁面上呢,這正好也是之前提到的第二個問題,我們看了唯一抓取率( 只抓一次的頁面數(shù)/總抓取數(shù))的變化,從50%增長到74%,可以說明爬蟲在閱讀robots文件后,對爬蟲資源做了更合理的分配,更多的單頁被抓取。
總結(jié):Robots文件相比其他手段,可以在較短時間內(nèi)優(yōu)化百度爬蟲的抓取資源分配,但這得建立在網(wǎng)站本身結(jié)構(gòu)良好,內(nèi)容過關(guān)的基礎(chǔ)之上,同時最重要的還是得反復(fù)測試,通過日志分析實(shí)際情況來調(diào)整以取得最佳效果 轉(zhuǎn)自百度站長社區(qū)
評論(0人參與,0條評論)
發(fā)布評論
最新評論