觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
百度《一種對搜索結(jié)果進行排序的方法及設(shè)備》專利,申請于2011-05-09, 發(fā)明人:李彥宏 張子云,申請?zhí)枺?01110118082.6
專利原文下載地址:http://pan.baidu.com/s/1c2bjT2g
簡單介紹該專利在說什么
搜索引擎一般是通過搜索詞和文章的相關(guān)度來排序,然后把排序后的結(jié)果展現(xiàn)給用戶。這樣的結(jié)果雖然速度快,但是它有一個缺點,就是排在前面的不一定是用戶需要的搜索結(jié)果。所以就研發(fā)了該專利的方法來對結(jié)果進行修正。
修正的條件包括但不限于以下幾個方面:
?1、搜索結(jié)果所引用資源的有效性
2、搜索結(jié)果所在站點的權(quán)威性
3、搜索結(jié)果的頁面級別
4、搜索結(jié)果的頁面類型
5、搜索結(jié)果的頁面質(zhì)量
6、搜索結(jié)果的頁面編碼類型
7、搜索結(jié)果的頁面豐富程度
?8、在相同的檢索詞得到的搜索結(jié)果中是否被點擊過
這個修正方法怎么工作的呢?
?通過對某類詞設(shè)置相應(yīng)的修正條件和每個修正條件所占的權(quán)重,然后通過 每個修正值×權(quán)重 再相加,得到最后的 最終排序值,由高到低排序。具體的算法大家可以參閱專利文獻。
思考來了,我列一些我的想法,大家補充
?1、不同的類型的網(wǎng)站的排序標準是不一樣的
根據(jù)專利所述,新聞?wù)?醫(yī)療站更重視權(quán)威性,資源站(影視,下載)更重視資源的有效性(是否可以在線觀看,可以下載)。所以我們在針對不同類型的網(wǎng)站優(yōu)化需要有所區(qū)別。
2、頁面編碼確實是有影響的
?參加或者觀看過光年培訓視頻的同學應(yīng)該記得,國平講過要注意網(wǎng)站的charset要設(shè)置正確,不要中文網(wǎng)站設(shè)置成英文,英文設(shè)置成中文,這個用國外模板或系統(tǒng)的同學得注意。
?3、是否被點擊過
這個點擊過是指之前這個結(jié)果在同樣的檢索詞下,展現(xiàn)的時候是否有被用戶點擊過。有則標記為1,無則0。
?從技術(shù)的角度來講,這個可以將展示次數(shù)和點擊不成比例的搜索結(jié)果排除掉,因為有些不相關(guān)的搜索結(jié)果肯定是點擊率低的。
?之前點擊器橫行跟這個應(yīng)該有關(guān),這個修正方案可能不像專利列舉的只有0,1,可以還包括點擊次數(shù)等。
?4、資源有效性的評分方式
?評分是通過 -N ,0,+N 來進行的, 資源全部可用為正分,資源部份可用為0 ,資源全部不可用為負分
?得到負分的結(jié)果基本從結(jié)果中被排除了。 因為 算法是 分值×權(quán)重 然后再加上別的修正項得分的,負分嚴重影響最終結(jié)果,最終得分難以有排名。
?5、頁面級別
專利列舉了:首頁,專題頁和其它底層頁面。越重要的頁面其得到的分值越大,我認為不只這幾種頁面,比如: 列表頁、搜索結(jié)果頁
?6、排序的效率
為了更快的對結(jié)果進行排序,大部份值是被事先進行計算,然后保存起來,比如站點權(quán)威值,頁面級別這些修正值,但是一個搜索詞相關(guān)的結(jié)果可能很多,這時為了節(jié)約資源和得升效率,會提取相關(guān)度最高的N條結(jié)果來參與后續(xù)的修正排序,所以如果你相關(guān)度不夠擠入前N名里面,基本,你就是沒戲。這個在專利里是有說明的。
7、蛛絲馬跡
專利原文:“[0043] 在本實施例的方案中,為搜索結(jié)果的每種修正條件選擇的修正參數(shù)攜帶在搜索結(jié)果的URL中(如搜索結(jié)果的PageRank的修正參數(shù)),或攜帶在搜索結(jié)果的檢索詞-網(wǎng)頁(Query-URL)對中(如針對之前之用相同的檢索詞得到的搜索結(jié)果是否被點擊過的修正參數(shù)),因此,根據(jù)預(yù)設(shè)的修正條件,可以從搜索結(jié)果的URL或Query-URL對中查詢出已選擇的修正參數(shù)”。
?根據(jù)這條,可能在百度的結(jié)果頁或結(jié)果頁的URL能找到使用了哪些修正參數(shù)的蛛絲馬跡。
PS:
?百度的專利并不是百分百就是這樣子,我們可以從中得到一些啟發(fā),技術(shù)一直在進步,現(xiàn)在的排序方法肯定是比這個先進而有效率,請勿過于執(zhí)著。大膽假設(shè),小心求證。
評論(0人參與,0條評論)
發(fā)布評論
最新評論