觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
廣度優(yōu)先搜索
在深度優(yōu)先搜索算法中,是深度越大的結(jié)點越先得到擴展.如果在搜索中把算法改為按結(jié)點的層次進(jìn)行搜索, 本層的結(jié)點沒有搜索處理完時,不能對下層結(jié)點進(jìn)行處理,即深度越小的結(jié)點越先得到擴展,也就是說先產(chǎn)生 的結(jié)點先得以擴展處理,這種搜索算法稱為廣度優(yōu)先搜索法.
在深度優(yōu)先搜索算法中,是深度越大的結(jié)點越先得到擴展.如果在搜索中把算法改為按結(jié)點的層次進(jìn)行搜索, 本層的結(jié)點沒有搜索處理完時,不能對下層結(jié)點進(jìn)行處理,即深度越小的結(jié)點越先得到擴展,也就是說先產(chǎn)生 的結(jié)點先得以擴展處理,這種搜索算法稱為廣度優(yōu)先搜索法.
吸引蜘蛛
哪些頁面被認(rèn)為比較重要呢?有幾方面影響因素:
· 網(wǎng)站和頁面權(quán)重.質(zhì)量高、資格老的網(wǎng)站被認(rèn)為權(quán)重比較高,這種網(wǎng)站上的頁面被爬行的深度也會比較高,所以會有更多內(nèi)頁被收錄.
· 頁面更新度.蜘蛛每次爬行都會把頁面數(shù)據(jù)存儲起來.如果第二次爬行發(fā)現(xiàn)頁面與第一次收錄的完全一樣,說明頁面沒有更新,蜘蛛也就沒有必要經(jīng)常抓取.如果頁面內(nèi)容經(jīng)常更新,蜘蛛就會更加頻繁地訪問這種頁面,頁面上出現(xiàn)的新鏈接,也自然會被蜘蛛更快跟蹤,抓取新頁面.
· 導(dǎo)入鏈接.無論是外部鏈接還是同一個網(wǎng)站的內(nèi)部鏈接,要被蜘蛛抓取就必須有導(dǎo)入鏈接進(jìn)入頁面,否則蜘蛛根本沒有機會知道頁面的存在.高質(zhì)量的導(dǎo)入鏈接也經(jīng)常使頁面上的導(dǎo)出鏈接被爬行深度增加.一般來說網(wǎng)站上權(quán)重最高的是首頁,大部分外部鏈接是指向首頁,蜘蛛訪問最頻繁的也是首頁.離首頁點擊距離越近,頁面權(quán)重越高,被蜘蛛爬行的機會也越大.
地址庫
為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面.地址庫中的uRL有幾個來源:
(1)人工錄入的種子網(wǎng)站.
(2)蜘蛛抓取頁面后,從HTML中解析出新的鏈接uRL,與地址庫中的數(shù)據(jù)進(jìn)行對比,如果是地址庫中沒有的網(wǎng)址,就存入待訪問地址庫.
(3)站長通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址.
蜘蛛按重要性從待訪問地址庫中提取uRL,訪問并抓取頁面,然后把這個uRL從待訪問地址庫中刪除,放進(jìn)已訪問地址庫中.
大部分主流搜索引擎都提供一個表格,讓站長提交網(wǎng)址.不過這些提交來的網(wǎng)址都只是存入地址庫而已,是否收錄還要看頁面重要性如何.搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的.可以說提交頁面基本t是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面.
文件存儲搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫.其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的.每個uRI,都有一個獨特的文件編號.
評論(0人參與,0條評論)
發(fā)布評論
最新評論