觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
HITS(Hyperlink – Induced Topic Search)鏈接分析算法誕生在1997年,該算法是由康奈爾大學(xué)中的一位博士提出,并且該算法沿用于全球多個搜索引擎當(dāng)中。當(dāng)然,不同的搜索引擎針對于該算法的側(cè)重點和內(nèi)部公式都有不一的算法結(jié)構(gòu)調(diào)整,并且HITS算法也是鏈接分析中最為重要的基礎(chǔ)算法之一。
對于目前國內(nèi)的整體搜索引擎而言,百度作為國內(nèi)的搜索引擎領(lǐng)頭羊,我會帶著HITS的公開文檔針對百度搜索引擎進(jìn)行多元化的角度和實驗來深度解析HITS在SEO中的實戰(zhàn)應(yīng)用。
首先,我們先來了解一下什么是HITS算法,包括他的計算公式和算法原理以及他優(yōu)缺點。深刻的理解了這些含義以后,然后我們借助一些特定的實驗來驗證HITS的效果和實用性。
在HITS鏈接分析算法當(dāng)中,闡述最多的兩個點就是Hub頁面與Authority頁面。
一、什么是Authority頁面(權(quán)威頁面)
簡單來說Authority頁面(權(quán)威頁面)是指在某一個領(lǐng)域范圍內(nèi)或者某一個相關(guān)主題范圍內(nèi)的高質(zhì)量網(wǎng)頁。比如招聘領(lǐng)域,前程無憂網(wǎng)站的首頁就是該領(lǐng)域的一個高質(zhì)量優(yōu)質(zhì)網(wǎng)頁。比如淘寶首頁就是電商領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁。
二、什么是Hub頁面(樞紐頁面)
而Hub頁面(樞紐頁面)通常就是它頁面本身包含了很多高質(zhì)量的Authority頁面的鏈接,比如360網(wǎng)址導(dǎo)航首頁就是一個非常好的Hub頁面(樞紐頁面)。因為在360網(wǎng)址導(dǎo)航的站點頁面里面聚合了眾多的不同類型的權(quán)威站點集合,比如新聞板塊聚集了新浪、騰訊等權(quán)威站點。視頻板塊聚集了搜狐視頻、優(yōu)酷視頻等權(quán)威站點。這個點和大家經(jīng)常發(fā)布的一些分類目錄網(wǎng)站外鏈有點類似(所以為何網(wǎng)站目錄外鏈還存在一定的效果,正是因為搜索引擎本身有自己特有的算法才會影響到你的排名)。
三、HITS算法意義
之所以存在HITS算法,是因為搜索引擎需要在全球所抓取的網(wǎng)頁文檔集合當(dāng)中找到與用戶搜索請求查詢詞匹配度與之相關(guān)最高的頁面進(jìn)行符合匹配,而這里的匹配度相關(guān)最高的則是一些高質(zhì)量的“Authority”頁面和“Hub”頁面,而不是大家常常理解的站內(nèi)文章優(yōu)質(zhì)原創(chuàng)等因素。尤其是一些權(quán)威頁面,搜索引擎更加親耐,因為這類站點頁面的內(nèi)容會更加滿足用戶查詢的內(nèi)容。
有很多朋友可能會問到一個問題,如何成為權(quán)威頁面或者樞紐頁面呢?
其實樞紐頁面在前面從概念意義上解釋來說已經(jīng)告訴了大家如何去成為樞紐頁面。比如360導(dǎo)航網(wǎng)站的某一個站點類型的聚合頁面,再比如網(wǎng)站分類目錄站點的某一個站點類型的聚合頁面,這些都屬于樞紐頁面,但是樞紐頁面也會分為高質(zhì)量樞紐頁面和一般性樞紐頁面。比如360導(dǎo)航網(wǎng)站首頁不僅是樞紐頁面并且還是導(dǎo)航站點的權(quán)威頁面。
那么又如何成為權(quán)威頁面呢?
這里就會提到大家想要理解的一個深層次的東西了,所謂的高權(quán)重外鏈其實可以理解為高權(quán)威外鏈,即權(quán)重=權(quán)威。搜索引擎針對每一個站點和該站點的每一個頁面都有一系列的網(wǎng)頁評分,而這類評分決定著頁面的鏈接是否為有效的信任度。而權(quán)威頁面往往會有幾個特點:
1、品牌屬性
不管是某一種類型的站點,一旦要想成為行業(yè)的權(quán)威,品牌屬性必定濃厚,這點大家可以從百度搜索引擎的知心算法可以得知。如當(dāng)用戶搜索網(wǎng)上商城會聯(lián)想到京東、天貓;再如當(dāng)用戶搜索空調(diào)會聯(lián)想到海爾、格力、美的等知名品牌。正是因為這類品牌屬性,可以讓這類品牌官網(wǎng)站點在某一個行業(yè)領(lǐng)域形成獨特的權(quán)威度。但是,對于搜索引擎而言,這類品牌屬性搜索引擎是感觀不到的,而用戶卻可以知曉。因為對于用戶而言,用戶可以通過報刊,電視等多媒體方式了解到這些品牌的循環(huán)曝光,從而積累品牌的印象程度。那么搜索引擎是如何計算出這些品牌屬性的權(quán)威程度呢?針對搜索引擎來說,搜索引擎會通過全網(wǎng)抓取技術(shù)檢索全球所有網(wǎng)頁集合,根據(jù)文檔檢索模型計算出詞頻,而詞頻計算出來的相關(guān)詞頻次結(jié)合度最高的一類詞就是一個主題的符合度。通常情況下,是行業(yè)產(chǎn)品詞+品牌詞檢索。
2、歷史屬性
歷史屬性我們可以稱之為信任度屬性,何為信任度屬性,簡單的理解就是一個權(quán)威的站點必定是本身的頁面存在一定的真實性、可靠性的價值信任信息,就如百度百科的詞條會有對應(yīng)的參考資料來作為參考佐證,從而針對內(nèi)容進(jìn)行信任度提升。所以即使內(nèi)容不是原創(chuàng),如果頁面滿足了信任度屬性,你的內(nèi)容一樣非常有價值,也利于搜索引擎優(yōu)化。信任度屬性除了信息價值信任之外還有一點就是歷史數(shù)據(jù)積累,這點在老域名站點體現(xiàn)的非常明顯。越老的站點信任度屬性就體現(xiàn)的越明顯,比如做一些灰色產(chǎn)業(yè)或者做醫(yī)療的SEO人員就非常喜歡采用使用過的并且干凈底子的老域名進(jìn)行優(yōu)化效果最佳。
3、曝光屬性
權(quán)威頁面除了品牌屬性和歷史數(shù)據(jù)積累等屬性還有一點就是曝光屬性,這類曝光屬性會包含兩個大類,其中是站內(nèi)曝光屬性和站外曝光屬性。站內(nèi)曝光屬性可以理解為頁面收錄量,一般情況下,當(dāng)一個域名使用了10多年,每天都在充實著一些主題非常一致的優(yōu)質(zhì)樞紐頁面的時候,那么自然而然他的曝光也會放的很大。而站外曝光屬性就是在整個互聯(lián)網(wǎng)站點文檔集合里面所體現(xiàn)出你品牌屬性的詞頻集合和關(guān)鍵詞主題一致的文檔數(shù)量,比如闡述淘寶的網(wǎng)頁相關(guān)結(jié)果數(shù)有X億個網(wǎng)頁。而X億張網(wǎng)頁集合里面和淘寶相關(guān)度最密切的是關(guān)于電商、商城、網(wǎng)購等主題行業(yè)詞匯。那么通過歷史屬性的數(shù)據(jù)積累,淘寶站點在電商領(lǐng)域歸屬于權(quán)威站點。
四、HITS算法缺陷
每個搜索引擎算法都有自己的優(yōu)勢和缺陷,HITS也不例外,在HITS算法當(dāng)中,有4個最常見的缺陷,其中包含了計算效率低、主題漂移、容易作弊和結(jié)構(gòu)不穩(wěn)定。
由于HITS算法是與之查詢相關(guān)的算法,所以不能先計算,而必須是用戶請求了某一個搜索詞以后才能去計算該詞的一些站點文檔匹配度(鏈接評分板塊),加上HITS算法的計算屬性需要通過多次的計算迭代才能最終計算出檢索結(jié)果的文檔鏈接的推薦度投票,所以導(dǎo)致計算效率比較低下。
而主題漂移問題則是大家常常可以看到了一些現(xiàn)象,即使我交換的鏈接和我站點主題沒有一條相關(guān),但是也會促進(jìn)我的頁面關(guān)鍵詞排名提升。而這種現(xiàn)象正是因為HITS的特殊算法結(jié)構(gòu)才出現(xiàn)了給與這些無關(guān)網(wǎng)頁很高的排名。最終導(dǎo)致了搜索結(jié)果發(fā)生了主題漂移,而這種現(xiàn)象也稱為“緊密鏈接社區(qū)現(xiàn)象”。
評論(0人參與,0條評論)
發(fā)布評論
最新評論