搜索引擎優(yōu)化中,網(wǎng)站內(nèi)部優(yōu)化至關重要,其中網(wǎng)站內(nèi)部還需要注意頁面的重復。即:同一篇文章經(jīng)常會重復出現(xiàn)在同一個網(wǎng)站的不同網(wǎng)址上。
搜索引擎并不喜歡這種重復性的內(nèi)容。用戶搜索時,如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就太差了。雖然都是內(nèi)容相關的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內(nèi)容,這個過程就成為“優(yōu)化去重”。
去重的基本方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主題內(nèi)容中選取最有代表性的一部分關鍵詞(經(jīng)常是出現(xiàn)頻率最高的關鍵詞),然后計算這些關鍵詞的數(shù)字指紋。這里的關鍵詞選取是在分詞,去停止詞,消噪之后。實驗表明,通常選取10個特征關鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高的貢獻也就不大了。
典型的指紋計算方法如MD5算法(信息摘要算法第五版)和Rabin指紋計算方法等。這類指紋算法的特點是,輸入(特征關鍵詞)有任何微小的變化,都會導致計算出的指紋有很大差距。
了解了搜索引擎的去重算法,SEO人員就應該知道簡單地增加“的”“地”“得”,調(diào)換段落順序 還有的甚至是直接將文字替換這種所謂偽原創(chuàng),并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關鍵詞。而且所搜引擎的去重算法很可能不止于頁面級別(頁面權重),而是進行到段落級別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。
評論(0人參與,0條評論)
發(fā)布評論
最新評論