觸屏版
全國服務熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
常用抓取返回碼示意
簡單介紹幾種百度支持的返回碼:
1)最常見的404代表"NOT FOUND",認為網(wǎng)頁已經(jīng)失效,通常將在庫中刪除,同時短期內(nèi)如果spider再次發(fā)現(xiàn)這條url也不會抓取;
2)503代表"Service Unavailable",認為網(wǎng)頁臨時不可訪問,通常網(wǎng)站臨時關(guān)閉,帶寬有限等會產(chǎn)生這種情況.對于網(wǎng)頁返回503狀態(tài)碼,百度spider不會把這條url直接刪除,同時短期內(nèi)將會反復訪問幾次,如果網(wǎng)頁已恢復,則正常抓取;如果繼續(xù)返回503,那么這條url仍會被認為是失效鏈接,從庫中刪除.
3)403代表"Forbidden",認為網(wǎng)頁目前禁止訪問.如果是新url,spider暫時不抓取,短期內(nèi)同樣會反復訪問幾次;如果是已收錄url,不會直接刪除,短期內(nèi)同樣反復訪問幾次.如果網(wǎng)頁正常訪問,則正常抓取;如果仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除.
4)301代表是"Moved Permanently",認為網(wǎng)頁重定向至新url.當遇到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網(wǎng)站改版工具,以減少改版對網(wǎng)站流量造成的損失.
3、多種url重定向的識別
互聯(lián)網(wǎng)中一部分網(wǎng)頁因為各種各樣的原因存在url重定向狀態(tài),為了對這部分資源正常抓取,就要求spider對url重定向進行識別判斷,同時防止作弊行為.重定向可分為三類:http 30x重定向、meta refresh重定向和js重定向.另外,百度也支持Canonical標簽,在效果上可以認為也是一種間接的重定向.
4、抓取優(yōu)先級調(diào)配
由于互聯(lián)網(wǎng)資源規(guī)模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統(tǒng)設計一套合理的抓取優(yōu)先級調(diào)配策略.主要包括:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、社會化分享指導策略等等.每個策略各有優(yōu)劣,在實際情況中往往是多種策略結(jié)合使用以達到最優(yōu)的抓取效果.
5、重復url的過濾
spider在抓取過程中需要判斷一個頁面是否已經(jīng)抓取過了,如果還沒有抓取再進行抓取網(wǎng)頁的行為并放在已抓取網(wǎng)址集合中.判斷是否已經(jīng)抓取其中涉及到最核心的是快速查找并對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數(shù)而實際是同一個頁面,這將視為同一個url來對待.
6、暗網(wǎng)數(shù)據(jù)的獲取
互聯(lián)網(wǎng)中存在著大量的搜索引擎暫時無法抓取到的數(shù)據(jù),被稱為暗網(wǎng)數(shù)據(jù).一方面,很多網(wǎng)站的大量數(shù)據(jù)是存在于網(wǎng)絡數(shù)據(jù)庫中,spider難以采用抓取網(wǎng)頁的方式獲得完整內(nèi)容;另一方面,由于網(wǎng)絡環(huán)境、網(wǎng)站本身不符合規(guī)范、孤島等等問題,也會造成搜索引擎無法抓取.目前來說,對于暗網(wǎng)數(shù)據(jù)的獲取主要思路仍然是通過開放平臺采用數(shù)據(jù)提交的方式來解決,例如"百度站長平臺""百度開放平臺"等等.
評論(0人參與,0條評論)
發(fā)布評論
最新評論