觸屏版
全國(guó)服務(wù)熱線:0571-87205688
登錄
注冊(cè)
客戶中心
關(guān)注云客
2016 年以來(lái),IT行業(yè)最大的技術(shù)突破應(yīng)該是人工智能了,不僅在一年左右時(shí)間,在最后一個(gè)人類曾經(jīng)自以為機(jī)器很難戰(zhàn)勝人類的游戲項(xiàng)目上完勝人類,前幾天更是出現(xiàn)了逆天的AlphaGo Zero,完全不用借鑒人類知識(shí),自學(xué) 3 天就超越了人類。
人工智能領(lǐng)域最牛X的公司,國(guó)外是Google,國(guó)內(nèi)是百度。都是搜索引擎。這恐怕也不是什么巧合,而是因?yàn)樗阉饕媸亲钸m合開(kāi)發(fā)人工智能的公司,他們擁有最大量的數(shù)據(jù),包括文字、圖片、視頻,還有地圖、路況、用戶使用數(shù)據(jù)等等。
搜索引擎公司的AI成果在多大程度上運(yùn)用到了他們的核心業(yè)務(wù)-搜索中?他們都沒(méi)有明確地對(duì)外說(shuō)明,從搜索工程師的零碎發(fā)言中猜測(cè),至少目前還沒(méi)有大規(guī)模使用,并沒(méi)有改變搜索算法的基礎(chǔ)。畢竟人工智能雖然概念存在了幾十年,但效果突飛猛進(jìn)只是近幾年的事,還沒(méi)有出現(xiàn)通用人工智能,在圍棋這種規(guī)則簡(jiǎn)單明確的領(lǐng)域中牛X,遷移到規(guī)則模糊的系統(tǒng)中,比如搜索,還需要一些時(shí)間。
但我想,人工智能大規(guī)模應(yīng)用于搜索算法是早晚的事。據(jù)說(shuō)以前百度大搜索部門和人工智能/深度學(xué)習(xí)部門之間是有些矛盾的,現(xiàn)在吳恩達(dá)離開(kāi)了百度,陸奇對(duì)百度又進(jìn)行了很多人事調(diào)整,搜索部門對(duì)人工智能的排斥也許就大大降低了。
其實(shí)人工智能已經(jīng)在搜索算法中有所運(yùn)用。舉兩個(gè)例子。
百度DNN模型
前幾個(gè)月看到了百度朱凱華的一篇《AI賦能的搜索和對(duì)話交互》演講報(bào)道。數(shù)年前和朱凱華還做過(guò)一次訪談,那時(shí)候他還是Google的主任架構(gòu)師,是著名的熊貓算法的主要參與者之一,現(xiàn)在他是百度的首席架構(gòu)師了。演講內(nèi)容很多,感興趣的搜索標(biāo)題就能找到全文,很值得深入讀一下。這么長(zhǎng)時(shí)間SEO行業(yè)很少人注意到這篇這么有價(jià)值的關(guān)于搜索算法的公開(kāi)信息,還是挺意外的。
演講里提到了百度 2013 年上線的DNN模型,極大提高了語(yǔ)義相關(guān)性的判斷范圍和準(zhǔn)確性, 2013 年百度相關(guān)性提高的34%來(lái)自于DNN模型, 2014 年全年相關(guān)性提升的25%來(lái)自DNN模型。DNN模型使用的就是深度學(xué)習(xí)方法,通過(guò) 100 億的用戶點(diǎn)擊數(shù)據(jù)訓(xùn)練模型,有超過(guò) 1 億個(gè)參數(shù)。下面介紹的Google RankBrain是 2015 年上線的,所以百度是世界上第一個(gè)將人工智能應(yīng)用到實(shí)際搜索算法中的公司。
簡(jiǎn)單說(shuō),就是對(duì)同一個(gè)查詢?cè)~,模型分析了真實(shí)用戶點(diǎn)擊了的頁(yè)面的標(biāo)題,和沒(méi)有點(diǎn)擊的頁(yè)面標(biāo)題,從而更深入理解哪些標(biāo)題是滿足了用戶需求的。經(jīng)常出現(xiàn)的情況是,頁(yè)面標(biāo)題并不包含查詢?cè)~,用戶卻更愿意點(diǎn)擊這些頁(yè)面,說(shuō)明這些頁(yè)面滿足了用戶需求,這些頁(yè)面的標(biāo)題,即使不包含查詢?cè)~,也是與查詢?cè)~語(yǔ)義相關(guān)的。這是經(jīng)典的頁(yè)面-關(guān)鍵詞相關(guān)性算法無(wú)法計(jì)算出來(lái)的。
演講中提到的例子:
百度DNN模型案例
在DNN上線之前,用戶搜索“ghibli車頭任何放置車牌”時(shí),由于相關(guān)信息很少,沒(méi)有什么頁(yè)面是以這個(gè)查詢?cè)~為標(biāo)題或者頁(yè)面出現(xiàn)這些關(guān)鍵詞的,所以搜索結(jié)果質(zhì)量不高,傳統(tǒng)搜索算法只能按關(guān)鍵詞匹配返回一些ghibli相關(guān)信息,卻沒(méi)幾乎有“車頭任何放置車牌”的信息。
DNN上線之后的搜索結(jié)果是這樣的:
百度DNN模型上線效果
可以看到,搜索結(jié)果中還是沒(méi)有以“ghibli車頭任何放置車牌”為標(biāo)題的頁(yè)面,但解決了用戶的需要,算法理解了“前”、“前面”和“車頭”是一個(gè)意思,“放哪里啊”、“怎么裝”、“咋掛”和“任何放置”是一個(gè)意思,所以“ghibli車牌咋掛”這種頁(yè)面回答了“ghibli車頭任何放置車牌”這個(gè)查詢,雖然他們包含的關(guān)鍵詞是不一樣的。
這種對(duì)相關(guān)性的理解不是傳統(tǒng)以關(guān)鍵詞匹配為基礎(chǔ)的搜索算法能算出來(lái)的,而是真實(shí)用戶的點(diǎn)擊數(shù)據(jù)告訴搜索算法的。用戶搜索“ghibli車頭任何放置車牌”時(shí),經(jīng)常點(diǎn)擊“ghibli車牌咋掛”、“ghibli前面車牌照怎么裝”這些頁(yè)面,DNN模型被訓(xùn)練后知道,這些詞之間是語(yǔ)義相關(guān)的。
Google RankBrain
2015 年上線的Google RankBrain解決的也是對(duì)查詢?cè)~的深入理解問(wèn)題,尤其是比較長(zhǎng)尾的詞,找到與用戶查詢?cè)~不完全匹配、但其實(shí)很好回答了用戶查詢的那些頁(yè)面。和百度DNN是非常類似的。Google沒(méi)有具體說(shuō)明RankBrain的訓(xùn)練方法,估計(jì)和百度DNN也是類似的。
2015 年RankBrain上線時(shí),15%的查詢?cè)~經(jīng)過(guò)RankBrain處理, 2016 年所有查詢?cè)~都要結(jié)果RankBrain處理。
Google自己經(jīng)常舉的RankBrain例子是這個(gè)查詢:
What's the title of the consumer at the highest level of a food chain
這個(gè)查詢?cè)~相當(dāng)長(zhǎng)尾,完全匹配的結(jié)果比較少,而且查詢中的幾個(gè)詞容易有歧義,比如consumer通常是消費(fèi)者的意思,food chain也可以理解為餐飲連鎖,但這個(gè)完整的查詢和商場(chǎng)、消費(fèi)者、飯館之類的意思沒(méi)有任何關(guān)系,RankBrain能理解其實(shí)用戶問(wèn)的是食物鏈頂端的物種是什么名字。同樣,搜索結(jié)果不能按照傳統(tǒng)的關(guān)鍵詞匹配來(lái)處理。
這種長(zhǎng)尾查詢數(shù)量很大,每天Google收到的查詢里有15%是以前都沒(méi)出現(xiàn)過(guò)的。這種查詢要靠關(guān)鍵詞匹配就比較難以找到高質(zhì)量頁(yè)面,數(shù)量太少,甚至沒(méi)有,但理解了查詢的語(yǔ)義和意圖,就能找到滿足用戶需求的、關(guān)鍵詞并不完全匹配的頁(yè)面。
對(duì)SEO的影響以后再詳細(xì)寫,這里只是先簡(jiǎn)單提示一下:頁(yè)面要包含關(guān)鍵詞,這在目前的關(guān)鍵詞優(yōu)化過(guò)程中是必然的,現(xiàn)在搜索引擎能理解兩句不同的話意思是一樣的了,以后創(chuàng)作或編輯頁(yè)面內(nèi)容時(shí),是不是還一定要包含關(guān)鍵詞呢?
如何選擇適合的SEO優(yōu)化方法?
原創(chuàng)文章不收錄的SEO原因有哪些
解析SEM與SEO的優(yōu)缺點(diǎn)
巧借內(nèi)容營(yíng)銷進(jìn)行網(wǎng)站SEO并持續(xù)引流量
刷百度相關(guān)搜索和下拉框的技術(shù)原理
淺談網(wǎng)站中的布局與建網(wǎng)站的注意事項(xiàng)
中小企業(yè)與商戶, 如何外包自己的SEO項(xiàng)目
百度清風(fēng)算法下我們?cè)撛趺磻?yīng)對(duì)
每天都更新內(nèi)容的網(wǎng)站 為什么還遭到降權(quán)了呢
alt標(biāo)簽對(duì)SEO優(yōu)化的影響
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論