觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊(cè)
客戶中心
關(guān)注云客
最近,接手了一個(gè)大型的網(wǎng)站,首先要做的就的對(duì)這個(gè)網(wǎng)站的流量來源進(jìn)行分析,這其中最繁瑣的莫過于對(duì)來源關(guān)鍵詞的聚類整合了。
所謂關(guān)鍵詞聚類就是以領(lǐng)域特征明顯的詞和短語作為聚類對(duì)象,在分類系統(tǒng)的大規(guī)模層級(jí)分類語料庫中,利用獨(dú)創(chuàng)的文本分類的特征提取算法進(jìn)行詞語的領(lǐng)域聚類,通過控制詞語頻率的影響,分別獲取領(lǐng)域通用詞和領(lǐng)域?qū)n愒~。
所以,要想做好這類做關(guān)鍵詞的聚類,就一定要有一些基礎(chǔ)信息,基礎(chǔ)數(shù)據(jù)作為背景。在此,我就借助博客的平臺(tái)跟大家實(shí)例解析關(guān)鍵詞聚類的方法策略:
1、百度商業(yè)詞聚類模型
現(xiàn)在對(duì)于一些醫(yī)療SEO來說看行業(yè)新聞,大家經(jīng)常討論一個(gè)話題就是百度醫(yī)療行業(yè)的收入貢獻(xiàn)比是多少?,其實(shí),爆個(gè)大料給大家,在2005年甚至2006年之前,百度自己都不掌握這類數(shù)據(jù)。
當(dāng)時(shí)百度有一個(gè)簡(jiǎn)單的客戶分類,是客服提交的,然后我們看了一下消費(fèi)的行業(yè)分布,結(jié)果顯示超過50%屬于其他分類,這個(gè)結(jié)果基本上就沒法看了。
然后我就琢磨,用商業(yè)詞能不能直接聚類為行業(yè),當(dāng)時(shí)我在產(chǎn)品部門,合作反欺詐點(diǎn)擊的工程師是張懷亭,這是個(gè)算法高手,他當(dāng)年的畢業(yè)論文就是關(guān)聯(lián)規(guī)則和聚類算法,我就去請(qǐng)教他,他說了一堆,我大部分沒聽懂,但大概要點(diǎn)知道了一些,然后找他要了論文看了看,也沒太看明白,憑借自己粗淺的理解我就動(dòng)手了,然后這個(gè)還真做成了。
我的出發(fā)點(diǎn)就是假設(shè)客戶本身具有行業(yè)屬性(如果這個(gè)假設(shè)不存在,那就沒轍了),我認(rèn)為每個(gè)客戶提交的關(guān)鍵詞,彼此是有關(guān)聯(lián)的。某兩個(gè)關(guān)鍵詞如果同時(shí)被不同的客戶提交,其關(guān)聯(lián)性就會(huì)隨之增加,這個(gè)是最基本的一個(gè)定義,叫做共同推舉數(shù),也是最容易算的一個(gè)值。
但是僅僅依賴于共同推舉數(shù)有一個(gè)問題,就是會(huì)導(dǎo)致很多詞都和熱門詞關(guān)聯(lián),這是不合理的,我記得當(dāng)時(shí)好像是某網(wǎng)上書城的推薦購買那一欄,明顯都是熱門書籍,似乎也是基于共同推舉數(shù)做的關(guān)聯(lián)。
問題1:A和B有50個(gè)共同推舉,A和C有30個(gè)共同推舉,但是B這個(gè)詞是熱門詞,共有2000個(gè)客戶提交;而C是冷門詞,只有50個(gè)客戶提交,請(qǐng)問A和B的關(guān)聯(lián)度高還是A和C的關(guān)聯(lián)度高?
問題2:客戶1提交了10000個(gè)詞(類似阿里真的是這么提交的);客戶2提交了20個(gè)詞,客戶1所提交的10000個(gè)詞的彼此關(guān)聯(lián)度和客戶2之間提交的是否一致?
考慮這兩個(gè)問題,就需要做權(quán)值調(diào)整了,然后再計(jì)算詞與詞的關(guān)聯(lián)值。那么,權(quán)值該怎么定呢?
對(duì)于這個(gè)權(quán)值的設(shè)定做了一個(gè)程序,實(shí)現(xiàn)程序只用了不到一個(gè)下午,然后跑一遍程序大約1個(gè)小時(shí)到2個(gè)小時(shí)(那時(shí)候百度的商業(yè)詞還沒那么多,客戶也沒現(xiàn)在呢么多,我的程序其實(shí)效率不夠好)。
然后我做了一個(gè)web展示界面,就是任意輸入一個(gè)詞,列出其關(guān)聯(lián)詞及關(guān)聯(lián)值,目測(cè)壞案例,分析參數(shù)的問題,然后修改參數(shù),再跑一遍。跑了n多遍,大約兩三天時(shí)間,覺得結(jié)果差不多了,詞與詞的關(guān)聯(lián)建立起來了,考慮第二步,聚類。(當(dāng)時(shí)認(rèn)識(shí)了很多奇葩的商業(yè)詞,大開眼界,對(duì)互聯(lián)網(wǎng)行業(yè)認(rèn)識(shí)徹底改觀,比如白小姐,黃大仙 ,這個(gè)領(lǐng)域就不再說了)
覺得聚類的做法就極為簡(jiǎn)單了,把每個(gè)行業(yè)的代表詞(與很多詞關(guān)聯(lián)的)抽取出來,當(dāng)作核心詞,然后基于詞的關(guān)聯(lián),延展一級(jí)關(guān)聯(lián)、二級(jí)關(guān)聯(lián)、三級(jí)關(guān)聯(lián),比如A與B關(guān)聯(lián),B月C關(guān)聯(lián),C與D關(guān)聯(lián),計(jì)算彼此權(quán)值衰減,得出A與D的關(guān)聯(lián)。盡可能把所有詞聚合到核心詞上,作成行業(yè)詞表。
最開始核心詞我從庫里挑與其他詞關(guān)聯(lián)度較高的有20多個(gè),然后多級(jí)權(quán)值衰減也是假設(shè)的,然后跑一遍,看兩個(gè)指標(biāo),第一、覆蓋率是多少?第二、準(zhǔn)確率如何?選取每個(gè)行業(yè)關(guān)聯(lián)度最低的詞(壞案例的密度較高,有些詞會(huì)同時(shí)被兩個(gè)行業(yè)核心詞關(guān)聯(lián),但權(quán)值計(jì)算會(huì)出問題,導(dǎo)致被并入錯(cuò)誤的行業(yè))去看,選擇沒有被關(guān)聯(lián)上的詞去看,分析權(quán)值的問題,然后修改衰減參數(shù),增加核心詞。這個(gè)程序我也是寫了一個(gè)下午,但是調(diào)試權(quán)值和增加核心詞,做了一個(gè)禮拜。
然后,百度商業(yè)分析部終于可以推出,基于行業(yè)的收入報(bào)表。我自豪的說一句,百度做收入行業(yè)分布,是基于我的關(guān)鍵詞分類算法開始的,當(dāng)然,今天他們鳥槍換炮了,我的算法效率不夠(初期還行,到更大的詞規(guī)模和更多客戶就不行了),覆蓋率和準(zhǔn)確度并不十分完美(壞案例還是一直存在的,不過盡可能控制在消費(fèi)總額的10%內(nèi),對(duì)熱門詞比較準(zhǔn),但對(duì)一些長尾控制不?。?。不過、我是在產(chǎn)品部門干的這個(gè)活,呵呵。
后來,這個(gè)模型還用于智能起價(jià),下面再說一下關(guān)于智能起價(jià)的一些事。
智能起價(jià)其實(shí)是百度一個(gè)失敗的商業(yè)嘗試,對(duì)業(yè)務(wù)的傷害非常大,但是初期的設(shè)計(jì)理念并沒有大問題,百度當(dāng)時(shí)基于關(guān)鍵詞的競(jìng)價(jià)(當(dāng)時(shí)的競(jìng)價(jià)模式非常簡(jiǎn)單,別跟我說現(xiàn)在百度的競(jìng)價(jià)模式不這樣,我明白),對(duì)商業(yè)價(jià)值的挖掘是有缺陷的,比如一些超級(jí)熱門詞,3毛一個(gè)點(diǎn)擊也是賣不掉的(比如電影,小游戲)。是不是可以便宜點(diǎn)賣呢?對(duì)一些非但是價(jià)值很高的詞,因?yàn)榘l(fā)現(xiàn)的客戶少,所以起價(jià)很低,而其商業(yè)價(jià)值并不弱,比如 最新SEO技術(shù)的報(bào)價(jià) 這樣的長尾詞可能參與競(jìng)價(jià)的只有一兩個(gè)客戶,但是其商業(yè)價(jià)值不會(huì)低于 SEO技術(shù) 這樣的高價(jià)詞。
所以,智能起價(jià)真正的目的,是給熱門非商業(yè)詞降價(jià),給冷門長尾商業(yè)詞提價(jià)。
那么我就提出一個(gè)觀點(diǎn),關(guān)鍵詞的起價(jià)應(yīng)與他關(guān)聯(lián)詞的平均點(diǎn)擊價(jià)格相關(guān)。然后他們拿這個(gè)模型去跟領(lǐng)導(dǎo)講,很快就通過了。(牢騷一句,趙某童鞋去講的,被領(lǐng)導(dǎo)問毛了,就說算法是技術(shù)部門的,他也不是很清楚,他去講的時(shí)候明明是我提供的原型! 不過后來技術(shù)部門又做了一版,但那是后話了)
智能起價(jià)模型失敗的原因,有兩個(gè)原因:
(1)、他們上的時(shí)候?yàn)榱颂岣邔?duì)非商業(yè)詞的覆蓋率,硬把關(guān)鍵詞包含規(guī)則加上去了。導(dǎo)致了一些壞案例。(比如平板,平板電腦,并不是一個(gè)行業(yè))。當(dāng)時(shí)效果很不好,領(lǐng)導(dǎo)很不爽,批評(píng)我的壞案例太多,列了一堆,我挨個(gè)去查,所列的沒有一個(gè)是我算法算出來的,都是詞包含包進(jìn)去的。其實(shí)這個(gè)問題還不算嚴(yán)重,詞包含固然有壞案例,但是影響面極為有限。
(2)、就是領(lǐng)導(dǎo)太急迫了,這個(gè)事情我的建議是,起價(jià)權(quán)值低一點(diǎn)(通過算法計(jì)算每個(gè)詞關(guān)聯(lián)平均價(jià)格,然后關(guān)聯(lián)平均價(jià)格*起價(jià)參數(shù)=該詞起價(jià),這是基本公式,起價(jià)參數(shù)全憑個(gè)人判斷),看效果慢慢調(diào)整,結(jié)果領(lǐng)導(dǎo)一上來設(shè)的相當(dāng)高,所以,客戶極大不爽,各種擦屁股持續(xù)了幾個(gè)月,百度那個(gè)季度實(shí)在可憐。
鳳巢之后,智能起價(jià)終于壽終正寢。鳳巢的方案更完美,更綜合,這是必須承認(rèn)的。
2、搜索詞/指數(shù)詞的聚類
當(dāng)然,除了以上所述的,也可以基于搜索網(wǎng)民的提交來計(jì)算關(guān)聯(lián)度,但是首先,網(wǎng)民的搜索行為,并不如客戶提交商業(yè)詞行為那樣具有分類屬性。其次,我當(dāng)時(shí)的處理能力也搞不定這樣的數(shù)據(jù)規(guī)模的關(guān)聯(lián)計(jì)算。
那么基于什么呢?基于關(guān)鍵詞+搜索量。
這事又是懷亭幫忙,當(dāng)時(shí)他幫我做所有搜索記錄的整理,包括匯總和反刷處理,除了一些ip,客戶端標(biāo)記清理外,最重要的還有一個(gè)規(guī)則,是基于渠道分布和客戶端分布規(guī)則。
正常的搜索詞,來自于不同渠道的比例應(yīng)該是遵循一個(gè)合理分布比例的,所謂渠道包括百度官網(wǎng),hao123,其他聯(lián)盟渠道等等,如果嚴(yán)重不遵守這個(gè)比例,基本就是刷指數(shù)了,但這個(gè)規(guī)則沒有應(yīng)用到百度指數(shù)上,至少當(dāng)時(shí)沒應(yīng)用到,原因似乎是這樣的,當(dāng)時(shí)幾乎所有榜單上的熱門女星,似乎都有經(jīng)紀(jì)公司或粉絲團(tuán)的刷榜行為。所以當(dāng)時(shí)我手里有百度所有搜索詞的搜索數(shù)據(jù)(清理掉刷指數(shù)的數(shù)據(jù)),而且每日更新。
那么怎么分類呢?如果做全分類,我真做不到,但是熱門詞是可以做的。這里有一個(gè)要點(diǎn),就是每個(gè)熱門關(guān)鍵詞,都不是孤立存在的。而這些熱門詞的相關(guān)詞(基于詞包含)里,會(huì)攜帶一些表明其行業(yè)屬性的詞根,然后可以回溯這個(gè)熱門詞的行業(yè)屬性。
舉個(gè)例,比如某一個(gè)熱門游戲,魔獸, 會(huì)有大量諸如魔獸攻略,魔獸新服,魔獸道具,魔獸外掛等等相關(guān)詞。通過這些相關(guān)詞的詞根(可以對(duì)詞根標(biāo)記分類屬性)回溯原詞,以及原詞所有相關(guān)詞的分類。比如電視劇,常見詞根有 第**集,最新集 ,一個(gè)小說,常見詞根有 第**章 , 最新章節(jié) 等。
當(dāng)然,還有一個(gè)情況,有些詞是多含義的,比較典型如蘋果(IT產(chǎn)品,電影,水果)。武林外傳(電視劇,游戲)等。通過詞根的分析,并基于不同詞根下的搜索量加權(quán),得到該詞的搜索屬性,偏向哪個(gè)領(lǐng)域,或各個(gè)領(lǐng)域的比例,是的,不是很精確,但是還是有一定價(jià)值的。
建議的實(shí)現(xiàn)方法就是,針對(duì)每個(gè)未分類的熱門詞,去遍歷包含他的所有詞,然后基于預(yù)先定義的分類詞根去套,對(duì)包含每個(gè)分類詞根的長尾詞根據(jù)搜索量加權(quán),匯總得到該熱門詞的分類屬性,以及覆蓋包含該熱門詞的所有長尾詞的分類屬性。
這個(gè)算法思路,不適合對(duì)長尾詞挖掘(含有行業(yè)屬性詞根的長尾詞可以覆蓋,但是畢竟覆蓋率不夠),但是對(duì)百度熱榜可以有很好的幫助,對(duì)熱門詞的挖掘和自動(dòng)分類還是有一定把握的,當(dāng)時(shí)不少人抱怨我說百度熱榜更新不及時(shí),一些新游戲都很火了也進(jìn)不了熱榜,我就拉著百度熱榜的產(chǎn)品經(jīng)理和技術(shù)分享過,還提供過原型代碼,然后也沒有然后了。
至少當(dāng)時(shí),我能不斷看到網(wǎng)民搜索行為的分類比例(百度長尾詞太多,我的模型覆蓋搜索量只有50%左右),以及變化趨勢(shì),比如眼看著視頻類的搜索比例快速增長。
關(guān)鍵詞優(yōu)化難易程度的五個(gè)等級(jí)
SEO優(yōu)化應(yīng)貫通網(wǎng)站內(nèi)部優(yōu)化
深入解析小說網(wǎng)站的優(yōu)化與推廣
正確有效的進(jìn)行網(wǎng)站內(nèi)部優(yōu)化
網(wǎng)站營銷之網(wǎng)站優(yōu)化十七守則
網(wǎng)站優(yōu)化推廣最有效的方法?
評(píng)估社交媒體網(wǎng)站優(yōu)化
強(qiáng)大的Google網(wǎng)站優(yōu)化工具
SEO技術(shù):企業(yè)網(wǎng)站整站優(yōu)化的一些技巧
SEO搜索引擎優(yōu)化前言
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論