在互聯(lián)網中,信息的重復性是在所難免的。然而,搜索引擎怎樣識別重復信息?怎樣判斷哪些網頁的信息是原創(chuàng)的?哪些是復制的?怎樣認為哪些重復的信息是有價值的?哪些又是可以舍棄的呢?
在網站中,重復信息主要包括轉載和鏡像內容兩大類。搜索引擎對頁面分析的時候,必須具備是被重復信息的能力。因為大量的重復信息不但占用巨大的服務器資源,而且還增加了用戶尋找信息的時間,降低了用戶體驗。但這并不意味著所有重復信息都是沒有用的。搜索引擎會認為轉載內容沒有原創(chuàng)重要,賦予原創(chuàng)內容更高的權重,而鏡像內容則幾乎忽略。
轉載頁面是指與原創(chuàng)內容相同或相近的頁面。然而,搜索引擎如何識別轉載頁面呢?首先,它把網頁正文內容分為n個區(qū)域進行比較,如果其中有m個區(qū)域是相同或相似的,則認為這些頁面是互為轉載頁面。
在確定頁面的轉載關系后,接下來,搜索引擎在結合頁面的最后修改時間,頁面權重等因素判斷原創(chuàng)頁面與轉載頁面。
鏡像頁面是指內容完全相同的兩個頁面。和上述一樣,把內容分出n個區(qū)域,比對吼n個區(qū)域完全一樣則互為鏡像頁面。
鏡像網站。下一上完全相同的網站,形成鏡像網站主要有兩種情況。一個多個域名或IP指向同一服務器的物理目錄。另外就是整個網站內容被復制到使用不同域名或者不同IP的服務器上。
為了識別站點間是否互為鏡像網站搜索引擎首先判斷這些網站的首頁是否互為鏡像。然后綜合頁面權重,建立時間等諸多因素識別源網站。這也是為什么搜索引擎對于鏡像網站收錄極少,甚至不收錄的原因。
評論(0人參與,0條評論)
發(fā)布評論
最新評論