上面的內(nèi)容好象有些深奧,因為涉及大量技術細節(jié),我們只能說到這兒了。那下面我們說說大家最感興趣的排序問題吧。用戶輸入關鍵詞進行檢索,百度搜索引擎在排序環(huán)節(jié)要做兩方面的事情,第一是把相關的網(wǎng)頁從索引庫中提取出來,第二是把提取出來的網(wǎng)頁按照不同維度的得分進行綜合排序。“不同維度”包括:
1,相關性:網(wǎng)頁內(nèi)容與用戶檢索需求的匹配程度,比如網(wǎng)頁包含的用戶檢查關鍵詞的個數(shù),以及這些關鍵詞出現(xiàn)的位置;外部網(wǎng)頁指向該頁面所用的錨文本等
2,權威性:用戶喜歡有一定權威性網(wǎng)站提供的內(nèi)容,相應的,百度搜索引擎也更相信優(yōu)質(zhì)權威站點提供的內(nèi)容。
3,時效性:時效性結果指的是新出現(xiàn)的網(wǎng)頁,且網(wǎng)頁內(nèi)承載了新鮮的內(nèi)容。目前時效性結果在搜索引擎中日趨重要。
4,重要性:網(wǎng)頁內(nèi)容與用戶檢查需求匹配的重要程度或受歡迎程度
5,豐富度:豐富度看似簡單卻是一個覆蓋范圍非常廣的命題??梢岳斫鉃榫W(wǎng)頁內(nèi)容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。
6,受歡迎程度:指該網(wǎng)頁是不是受歡迎。
以上便是百度搜索引擎決定搜索結果排序時考慮的六大原則,那么六大原則的側重點是怎樣的呢?哪個原則在實際應用時占比最大呢?其實在這里沒有一個確切的答案。在百度搜索引擎早期,這些閾值的確是相對固定的,比如“相關性”在整體排序中的重量可以占到七成。但隨著互聯(lián)網(wǎng)的不斷發(fā)展,檢索技術的進步,網(wǎng)頁數(shù)量的爆發(fā)式增長,相關性已經(jīng)不是難題。于是百度搜索引擎引入了機器學習機制,讓程序自動產(chǎn)出計算公式,推進排序策略更加合理。
評論(0人參與,0條評論)
發(fā)布評論
最新評論