網(wǎng)頁(yè)查重技術(shù)簡(jiǎn)單介紹
對(duì)于搜索引擎來(lái)說(shuō),重復(fù)的網(wǎng)頁(yè)內(nèi)容是非常有害的。重復(fù)網(wǎng)頁(yè)的存在意味著這些網(wǎng)頁(yè)就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會(huì)在索引庫(kù)里索引兩份相同的網(wǎng)頁(yè)。當(dāng)有人查詢(xún)時(shí),在搜索結(jié)果中就會(huì)出現(xiàn)重復(fù)的網(wǎng)頁(yè)鏈接。所以無(wú)論是從搜索體驗(yàn)還是系統(tǒng)效率檢索質(zhì)量來(lái)說(shuō)這些重負(fù)網(wǎng)頁(yè)都是有害處的。
網(wǎng)頁(yè)查重技術(shù)起源于復(fù)制檢測(cè)技術(shù),即判斷一個(gè)文件內(nèi)容是否存在抄襲、復(fù)制另外一個(gè)或多個(gè)文件的技術(shù)。
網(wǎng)頁(yè)和簡(jiǎn)單的文檔不同,網(wǎng)頁(yè)的特殊屬性具有內(nèi)容和格式等標(biāo)記,因此在內(nèi)容和格式上的相同相似構(gòu)成了4種網(wǎng)頁(yè)相似的類(lèi)型。
1、兩個(gè)頁(yè)面內(nèi)容格式完全相同。
2、兩個(gè)頁(yè)面內(nèi)容相同,但格式不同。
3、兩個(gè)頁(yè)面部分內(nèi)容相同并且格式相同。
4、兩個(gè)頁(yè)面部分重要相同但格式不同。