觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
從事SEO優(yōu)化的都會了解在(2011)之前一般是通過比較兩個頁面的內(nèi)容和節(jié)點(diǎn),來確認(rèn)兩個頁面的相似度。這種方法能夠計(jì)算得比較準(zhǔn)確,可時間復(fù)雜度太高,計(jì)算很費(fèi)時間。通過對一個頁面中的某些重要信息進(jìn)行簽名,然后比較兩個頁面的簽名,來計(jì)算相似度,這種方式比較簡單 高效,計(jì)算速度比較快,比較適合互聯(lián)網(wǎng)這種海量信息的應(yīng)用場景!
在百度專利《一種網(wǎng)頁重復(fù)的判斷系統(tǒng)及其判斷方法 》(申請?zhí)?201110031636.9 )中使用了新的方法對網(wǎng)頁庫中的網(wǎng)頁進(jìn)行重復(fù)檢測.
首先是對待檢測的網(wǎng)頁進(jìn)行正文提取,正文提取的方法就是對網(wǎng)頁進(jìn)行分塊,然后獲取正文塊,然后提取正文塊中的文章.
提取到文章內(nèi)容后,對正文進(jìn)行分句,然后對每一個句子進(jìn)行轉(zhuǎn)換和過濾(特殊字符),對較長的一個或幾個句子進(jìn)行Hash簽名,以獲得網(wǎng)頁正文句子簽名.
接著把正文句子簽名相同的文章分為一個類,我們稱之為網(wǎng)頁集,對該網(wǎng)頁集下的文章再進(jìn)行下一步的判斷,這里還得再計(jì)算一些簽名
1.網(wǎng)頁正文的simhash簽名
2.真實(shí)標(biāo)題的hash簽名
3.標(biāo)簽標(biāo)題的hash簽名
4.網(wǎng)頁摘要的hash簽名
5.網(wǎng)頁內(nèi)容的hash簽名
6.位置簽名的hash簽名
7.評論信息的hash簽名
8.資源簽名(資源簽名是通 過對網(wǎng)頁中的圖片資源、聲音資源、視頻資源或下載鏈接資源的 url 進(jìn)行 hash 簽名運(yùn)算獲得)
9.URL文件名的hash簽名(url文件名簽名是通過對網(wǎng)頁的 url 中的文件名進(jìn)行 hash 簽名運(yùn)算獲得)
這些計(jì)算完了,就可以進(jìn)行下一步的判斷了,真重復(fù)的網(wǎng)頁舉例:
1、兩個網(wǎng)頁的真實(shí)標(biāo)題簽名相同。
2、兩個網(wǎng)頁的網(wǎng)頁內(nèi)容簽名相同。
3、兩個網(wǎng)頁的網(wǎng)頁正文簽名(simhash)的不同位數(shù)小于 6。
4、兩個網(wǎng)頁的網(wǎng)頁位置簽名相同,并且 url 文件名簽名相同。
5、評論塊簽名、資源簽名、標(biāo)簽標(biāo)題簽名、摘要簽名、url 文件名簽名中有三個簽名相同。
通過兩兩頁面比較,可以得到真重復(fù) url 的集合。一般來說,如果這個真重復(fù) url 集合中的網(wǎng)頁的數(shù)量 / 整個網(wǎng)頁集中網(wǎng)頁的數(shù)量> 30%,則認(rèn)為整個網(wǎng)頁集都是真重復(fù), 否則就是假重復(fù)。
網(wǎng)站SEO需要必備哪些技能
分析外鏈優(yōu)化的策略有哪些
新人如何快速高效的學(xué)習(xí)seo
seo優(yōu)化與付費(fèi)排名sem到底有怎樣的聯(lián)系?
一個網(wǎng)站SEO優(yōu)化者述說十多年的互聯(lián)網(wǎng)之路
技獨(dú)家揭秘影響SEO排名的17項(xiàng)核心因素
網(wǎng)站優(yōu)化百度收錄異常少且不穩(wěn)定的原因
網(wǎng)站優(yōu)化過程中你肯定會遇到以下問題
企業(yè)網(wǎng)站SEO優(yōu)化過程中該如何正確設(shè)置關(guān)鍵詞
tag標(biāo)簽SEO優(yōu)化讓網(wǎng)站迅速收錄排名!
評論(0人參與,0條評論)
發(fā)布評論
最新評論