觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
許久之前就有關(guān)注到TF-IDF的相關(guān)介紹,大部分的講解都是圍繞概念來講,很多人把TF-IDF稱作“算法”,筆者通讀了很多文章,甚至在自己的網(wǎng)站進(jìn)行了運(yùn)用。鑒于很多朋友說涉及到太多公式,不容易理解,本文用簡單的實例說明,談?wù)勎覍F-IDF的一些見解,不講復(fù)雜的公式,希望能幫助到各位!
首先,TF詞頻的概念與SEO建議
TF是指詞頻,查詢的關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)統(tǒng)計。相關(guān)文檔是這樣介紹的,假設(shè)查詢關(guān)鍵詞在同一個文檔中出現(xiàn)的次數(shù)越多,代表這個關(guān)鍵詞越重要,越能代表文檔的主題意思,文章主題與關(guān)鍵詞意思越接近,那么做SEO如何運(yùn)用這個知識點呢?
假設(shè)有一篇文章的標(biāo)題是:“SEO服務(wù)外包”,從字面上理解,文章主要是以SEO服務(wù)為核心,“外包”為拓展詞。假設(shè)文章內(nèi)容里SEO服務(wù)出現(xiàn)20次,服務(wù)出現(xiàn)25次,外包出現(xiàn)10次,按照TF詞頻的規(guī)則,那么SEO服務(wù)是文章主題,這個很好理解。
實際上有些時候?qū)懳恼聲r,在意思很明確的情況下,會省略主詞。比如SEO服務(wù)外包價格、SEO服務(wù)外包流程、SEO服務(wù)外包公司介紹,會縮寫成:外包價格、外包流程、外包公司介紹。這樣會導(dǎo)致外包出現(xiàn)的次數(shù)大于服務(wù),TF詞頻則會認(rèn)為外包是主題,出現(xiàn)錯誤的判斷。
那既然是這樣,做SEO關(guān)鍵詞布局的時候,應(yīng)該要適當(dāng)考慮主關(guān)鍵詞的出現(xiàn)頻率大于副詞。當(dāng)然搜索引擎判斷網(wǎng)頁主題有很多維度,這里只是單從TF詞頻的角度考慮,個人認(rèn)為這樣做會縮短搜索引擎判斷網(wǎng)頁主題的時間,對SEO來說是有利的。
第二、如何快速理解“IDF逆文檔頻率”
這個概念如果看文檔的話有點難理解,當(dāng)初筆者看百度百科好幾次才明白。涉及到復(fù)雜的公式在這里就不講,結(jié)合TF一起來理解,TF-IDF的意思是,一篇文章中某關(guān)鍵詞出現(xiàn)的次數(shù)越多,且在搜索引擎的資料庫中包含該關(guān)鍵詞文檔數(shù)越少,則說明這個關(guān)鍵詞越能代表此網(wǎng)頁的主題。
舉個例子來說明,假設(shè)有一篇文章,有兩個關(guān)鍵詞:“SEO優(yōu)化”和“SEO服務(wù)”,在文章中,這兩個關(guān)鍵詞出現(xiàn)的資料都是20次,但是在百度的資料庫中,包含SEO優(yōu)化的文檔總共有一千萬個,包含SEO服務(wù)的文檔有五百萬個,那么則說明,SEO服務(wù)越能代表這文章的意思?;蛘咚阉饕尜Y料庫中包含關(guān)鍵詞的文檔數(shù)量一樣,文章中出現(xiàn)次數(shù)越多的關(guān)鍵詞越能代表網(wǎng)頁主題。
從SEO的層面講,IDF這個值是客觀存在的,不必去深究,只要明白不同關(guān)鍵詞之間的文檔數(shù)多少就行,以百度為例,搜索任何一個關(guān)鍵詞,在搜索框下面會有一個:“百度為您找到相關(guān)結(jié)果約XXX個”的這樣句子,里面的數(shù)值可以作為文檔數(shù)參考。每個搜索引擎的包含關(guān)鍵詞的文檔數(shù)可能不一樣,但是整體的相對比例值應(yīng)該是差不多的。而且隨著時間的推移,文檔數(shù)也會不斷發(fā)生改變。
評論(0人參與,0條評論)
發(fā)布評論
最新評論