其實對于如何判斷網站的頁面價值有不少前輩已經寫過類似的文章了,而且寫的很好,我不覺得自己可以寫的比他們好,所以這里我就偷懶直接借鑒他們的內容了。
引用內容如下:
一個頁面的檢索價值,大致受以下四個要素的影響:
1、感興趣的受眾群大小
2、該頁面的稀缺程度(可替代性)
3、該頁面的質量高低
4、該頁面的時效性特征強弱
這四種要素,簡稱受眾,稀缺,質量和時效性。
1. 受眾
受眾群體的大小,即代表了用戶檢索需求的大小。評價受眾的大小主要依據信息發(fā)布源的受眾和信息內容本身受眾兩大方面。具體因素包括且不限于:
網站忠實用戶群大小
一般來說,擁有自己忠實用戶群的知名網站,他們的成功,在于他們的內容和服務,比別人更能吸引和滿足用戶。從這個角度來說,我們可以推論,擁有更多 忠實用戶群的網站上的內容,會比忠實用戶群較少的網站上的內容,有更多的既有和潛在受眾群。這樣的話,忠實用戶群大小,就可以變成對站點內資源檢索價值的 一種衡量指標。忠實用戶群的好處在于,它是變動的。如果一個網站變差了,那么用戶就會用腳投票。超鏈有過期問題,作弊問題,而虛假用戶群作弊很難。一般所 謂的網站知名度,會和忠實用戶群數(shù)量密切相關。
資源分布規(guī)律
我們再考慮一個網站內部的資源分布所體現(xiàn)的受眾群大小問題。比如新浪新聞首頁的那些推介內容。新浪編輯為什么要推這些內容?因為他們認為這些是用戶 最感興趣的。那么從索引價值角度而言,相當于有一個龐大的編輯團隊,已經對這些內容打上了“符合大眾口味”的標簽。搜索引擎只需要樂享其成就行了。這樣的話,資源相對于某些結構性關鍵頁面(首頁、頻道頁等)的鏈接深度,也可以成為衡量一個資源受眾群大小的指標了。
訪問熱門度
我們再從訪問熱門度角度來考慮受眾群大小問題。這個是最直接的,當然,它需要第三方的工具來獲取關鍵數(shù)據。通過這個途徑,獲取的不應僅僅是需要入庫的頁面,還有用戶訪問一個網站的訪問模式。
超鏈
超鏈某種程度上也是受眾群大小的反映。某個資源的質量越高,接觸的受眾群越大,那么獲得正常鏈接的數(shù)量往往也越大。
內容特征
A:我寫博客:“傳言郭德綱要上春晚了?!?/p>
B:我寫博客:“我今天吃早飯了?!?/p>
同樣的來源,前者的受眾必然高于后者。即:當在發(fā)布源相同的情況下,具有公眾屬性的內容分值會更高。
2. 稀缺
稀缺主要是描述頁面在互聯(lián)網中的獨特性。說到稀缺往往會想到重復,稀缺是否等同于無重復,我們應該怎樣解讀這一概念呢?可以看一個例子:
某人發(fā)表了一篇針對某新聞事件的原創(chuàng)博客,隨后被新浪轉載到了新聞頻道。從描述的內容上講,這是一種重復。但這種重復僅僅是主體內容上的重復,一方面它的轉載帶來了訪問速度、穩(wěn)定性等方面的增益,并且之后的檢索用戶還有可能用“新聞事件+新浪”來檢索此新聞。這可以被稱之為站點增益。另一方面,它在轉載過程中可能會改變頁面的標題,而且依托其受眾,在轉載頁面上,還有可能出現(xiàn)更多的有價值評論和回復等,還有可能存在指向其它相關事件的新聞鏈接。這些可以被稱之為內容增益。因此即使主題內容沒有任何變化,新浪的這次轉載也是有價值的,其稀缺度也是較高的。
同樣,反過來說,如果轉載的網站相當不知名,則其無法帶來站點名/穩(wěn)定性/速度的增益。更有甚者,轉載之后在頁面上加入大量廣告妨礙閱讀,或者只轉載了內容中不完整的一部分,這樣的轉載,或者說采集,就是純重復的,與采集源相比,就是沒有檢索價值的了。
綜上所述,對于主體內容重復的頁面,我們應該評價其是否存在站點增益和內容增益,只有對于大量完全無增益的重復頁面,我們才應該認為其稀缺度較低。
3. 質量
頁面的質量是它對需求的滿足程度的一種體現(xiàn)。判斷頁面質量的高低,應該是從最基礎的需求依次遞進的。
首先,不能是死鏈、網站要有一定的穩(wěn)定性、訪問速度要令人滿意。
其次,主體內容是否完整、版式和字體是否易讀、各類廣告會不會太多。
最后,信息是否豐富、延伸出的次級需求是否滿足。
典型的低質量頁面存在以下一些特征:
1、主需求無效/未滿足(過期分類廣告/軟件下載頁面,下載鏈接無效等)
2、死鏈
3、虛假信息/詐騙等
4、點不穩(wěn)定
5、影響主需求的權限問題(下載/瀏覽需要注冊會員/積分等)
6、信息不完整(轉載不全等)
7、瀏覽體驗差(廣告/字體/頁面布局等)
典型的高質量頁面存在以下一些特征:
1、訪問速度快(頁面加載快/資源下載速度快)
2、頁面整潔干凈,主體內容在顯著位置。
3、頁面信息完整。
4、頁面元素豐富(文字、圖片、評論、相關推薦等)
4. 時效性
“時效性”是頁面價值的一個屬性,它一般體現(xiàn)在兩個方面:一是頁面所描述的事物本身有著較強的公眾話題性,容易被傳播。這其實是受眾的一個體現(xiàn)。二 是頁面所描述的事物僅在第一時間有較高熱度,隨著時間推移熱度顯著下降。這是一種“新聞”性。對于具有上述兩種屬性的頁面,如果搜索引擎spider發(fā)現(xiàn) 頁面的時間正處于該事物的“爆發(fā)期”或“爆發(fā)期”之前,我們認為該頁面具有時效性。
需要說明的是,搜索引擎的廣義“時效性”是指對所有有價值新資源的及時收錄提供檢索,而所有的有價值新資源中,有一大部分其收錄速度的提升對用戶的 搜索體驗改善意義是不大的,比如介紹如何瘦身的知識性文章,張三的日記。頁面價值中的“時效性”指得是一種突發(fā)時效性,也就是所有有價值頁面中最需要及時 收錄的那些。對頁面時效性的判斷是為了指導我們將搜索引擎有限的資源投入到最關鍵的地方,產生最好的性價比。
判斷頁面的時效性價值,主要通過下面一些途徑:
頁面本身受眾是否有短時間的突增,比如超鏈爆發(fā)。賈君鵬的帖子就是一個典型的例子。
描述相同事物的互聯(lián)網頁面是否有段時間的突增。賈君鵬事件短時間內爆發(fā)出大量相關討論、報道,和這一事件相關的所有內容都具有了時效性屬性。
根據一個集合內的頁面是否具有上述兩種特征,推測該集合的時效性價值。比如魔獸世界吧經常爆出一些熱門帖子,公眾話題,我們推測出自魔獸世界吧的帖子其時效性“潛在價值”比較高。
評論(0人參與,0條評論)
發(fā)布評論
最新評論