如何讓spider再次抓取網(wǎng)頁




spider把網(wǎng)頁抓取到本地,該網(wǎng)頁被分析索引并參與了排名,并不意味著spider針對(duì)該網(wǎng)頁的工作已經(jīng)結(jié)束了?,F(xiàn)在互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容多是動(dòng)態(tài)變化的,甚至有時(shí)網(wǎng)頁會(huì)被管理者刪除。搜索引擎所抓取到的本地頁面,可以看做是對(duì)已經(jīng)抓取并說索引過的網(wǎng)頁做了一個(gè)鏡像,也就是說理論上搜索引擎應(yīng)該保證,本地“鏡像”頁面和對(duì)應(yīng)互聯(lián)網(wǎng)上的網(wǎng)頁內(nèi)容實(shí)時(shí)一致。但是由于搜索引擎的spider資源有限,現(xiàn)階段做不到也沒有必要做到實(shí)時(shí)監(jiān)測(cè)全部已索引網(wǎng)頁的所有變化。搜索引擎只需要為spider設(shè)置一個(gè)再次抓取和更新頁面的策略,以保證當(dāng)部分頁面呈現(xiàn)到用戶面前時(shí),搜索引擎的本地索引和該網(wǎng)頁當(dāng)時(shí)的內(nèi)容并沒有太大的差異就可以了,這部分頁面應(yīng)該包含大部分網(wǎng)民所需要檢索的內(nèi)容,并且也可以滿足絕大多數(shù)搜索用戶的搜索請(qǐng)求。
如上所述,在有限資源的情況下,搜索引擎首先要保證部分網(wǎng)頁索引的更新,這部分網(wǎng)頁擁有大部分用戶所需要的內(nèi)容:也要保證所有索引頁面都有一個(gè)更新機(jī)制,在該網(wǎng)頁需要相應(yīng)的新的內(nèi)容索引時(shí),spider要進(jìn)行再次抓取并更新該網(wǎng)頁索引。站在spider的角度,一般會(huì)根據(jù)以下四個(gè)方面來確定對(duì)已索引網(wǎng)頁的再次抓取頻率:用戶體驗(yàn)、歷史更新頻率、網(wǎng)頁類型和網(wǎng)頁權(quán)重。
1.用戶體驗(yàn)
整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁數(shù)量是巨大的,已被百度抓取并索引的中文網(wǎng)頁應(yīng)該也是千億級(jí)別的了,但是用戶所需要的信息只有一小部分。當(dāng)用戶在搜索引擎查詢后,不論返回結(jié)果有多少,大部分用戶都會(huì)在前三頁找到自己所需要的信息,很少有用戶會(huì)瀏覽第四頁或者更靠后的搜索結(jié)果。本著優(yōu)先更新大部分用戶所需要內(nèi)容的原則,所有用戶提交查詢結(jié)果的前幾頁,都是值得保證索引即時(shí)更新的。所以一般搜索引擎會(huì)收集所有用戶的搜索請(qǐng)求,然后統(tǒng)計(jì)所有搜索結(jié)果中用戶可能看到的網(wǎng)頁,繼而進(jìn)行優(yōu)先再次抓取和更新。理論上,這些網(wǎng)頁被搜索到的次數(shù)越多,再次被抓取到的頻率就會(huì)越高。
2.歷史更新頻率
搜索引擎會(huì)嘗試發(fā)現(xiàn)某一個(gè)網(wǎng)頁中內(nèi)容的更新頻率,因?yàn)閟pider的再次抓取就是為了發(fā)現(xiàn)已經(jīng)被索引網(wǎng)頁是否有變化,如果某個(gè)網(wǎng)頁持續(xù)沒有變化,可能搜索引擎就會(huì)降低對(duì)其抓取的頻率,甚至不再對(duì)其進(jìn)行再次抓取。這個(gè)策略的實(shí)施是建立在搜索引擎已經(jīng)發(fā)現(xiàn)網(wǎng)頁的更新頻率的基礎(chǔ)上的,所以理論上當(dāng)spider發(fā)現(xiàn)一個(gè)新的url抓取并索引后,會(huì)很快進(jìn)行二次抓取。如果沒有發(fā)現(xiàn)內(nèi)容變動(dòng),就會(huì)降低抓取頻率,這樣慢慢地發(fā)現(xiàn)網(wǎng)頁的更新頻率,以調(diào)整到最佳的抓取頻率。同時(shí)spider注重的變化應(yīng)該是網(wǎng)頁的主體內(nèi)容部分,一般會(huì)忽略主體內(nèi)容周圍的廣告模塊、導(dǎo)航模塊及推薦鏈接模塊的更新變動(dòng)。
3.網(wǎng)頁類型
不同的網(wǎng)頁有不同的更新頻率。在同一個(gè)站點(diǎn)內(nèi)網(wǎng)站首頁、目錄頁、專題頁和文章頁的更新頻率肯定是不同的。所以對(duì)同一站點(diǎn)內(nèi)的網(wǎng)頁,spider對(duì)不同類型的網(wǎng)頁抓取頻率是不同的。首頁和目錄頁是spider經(jīng)常光顧的頁面:根據(jù)專題頁面的時(shí)效性或者其他特征,spider可能會(huì)在某一時(shí)間段內(nèi)進(jìn)行頻繁抓取,時(shí)效性過期后就會(huì)降低對(duì)其的抓取頻率;對(duì)于文章頁,spider很有可能第一次來過之后就不再來了。雖然整個(gè)互聯(lián)網(wǎng)中網(wǎng)頁很多,但是網(wǎng)頁類型并不多,每個(gè)類型的網(wǎng)頁都會(huì)有自己的布局和更新規(guī)律,搜索引擎有足夠的能力發(fā)現(xiàn)網(wǎng)頁的類型并設(shè)置合理的再次抓取頻率。這也會(huì)方便spider對(duì)網(wǎng)頁更新頻率的判斷。
4.網(wǎng)頁權(quán)重
除了以上再次抓取策略外,網(wǎng)頁權(quán)重也是決定抓取頻率的重要因素。用戶體驗(yàn)策略在一定程度上也反映了網(wǎng)頁權(quán)重的影響。在網(wǎng)頁類型相同、歷史更新頻率也差不多的情況下,肯定是權(quán)重越高的頁面被抓取的頻率越高。比如百度首頁、好123首頁、chinaz站長(zhǎng)工具首頁和普通企業(yè)站首頁都可以簡(jiǎn)單歸為網(wǎng)站首頁,并且前三個(gè)“首頁”長(zhǎng)期都不會(huì)有什么更新,普通企業(yè)站首頁可能偶爾還會(huì)有更新,但是前三個(gè)“首頁”的百度快照一般都是最新的,而普通企業(yè)站的首頁快照可能是一周前甚至一個(gè)月前的。這就反映出了網(wǎng)頁權(quán)重在抓取頻率中的作用。
在搜索引擎spider的實(shí)際作用中,不會(huì)單獨(dú)使用某一種再次抓取策略,而是會(huì)綜合參考網(wǎng)頁的用戶體驗(yàn)、更新頻率、網(wǎng)頁類型和網(wǎng)頁權(quán)重,并且對(duì)于不同類型的頁面,著重參考的更新內(nèi)容主體也是不同的。比如,列表頁只有一篇新的文章進(jìn)入可能就算更新了;文章頁主體內(nèi)容沒有變,主體內(nèi)容周圍的所有推薦鏈接、廣告、內(nèi)容都變了,可能也不會(huì)算是有更新。
在SEO工作中為了提高某一網(wǎng)站的抓取頻率,一般會(huì)重點(diǎn)為該頁面的導(dǎo)入鏈接提高權(quán)重,努力加大該頁面的更新頻率。其實(shí)在用戶體驗(yàn)和網(wǎng)頁類型方面也是有工作可做的,用標(biāo)題和描述吸引點(diǎn)擊不僅可以提升排名,也能夠間接增加頁面被spider抓取的頻率;同時(shí)對(duì)于不同定位的關(guān)鍵詞可以使用不同的網(wǎng)頁類型(列表頁、專題頁、內(nèi)容頁等),這在設(shè)計(jì)頁面內(nèi)容和網(wǎng)站架構(gòu)時(shí)就應(yīng)該仔細(xì)地考慮,并且網(wǎng)頁類型這部分有很多工作值得做。比如,有不少網(wǎng)站把整站都做成了列表頁,全站沒有普通意義上的內(nèi)容頁,內(nèi)容頁主體內(nèi)容下方或周圍也有大量和主題相關(guān)的文本內(nèi)容,一般是類列表形式。不過這種手法有效時(shí)間不長(zhǎng),或者損害用戶體驗(yàn)后會(huì)降低被抓取的頻率。不論怎樣,優(yōu)秀的網(wǎng)站架構(gòu)設(shè)計(jì)應(yīng)該合理地利用spider抓取策略的各種特性。