對大中型網站的SEO工作來說,人工分類只能解決中短尾詞的著陸頁需求,可能做成分類列表,也可能做成專題頁來搶占關鍵詞排名。
但還有大量的長尾搜索需求該如何覆蓋呢?
常規(guī)做法是長尾詞聚合頁。
聚合頁是什么?
舉個例子,看下面的阿里巴巴產品聚合頁
通過關鍵詞去站內搜索出一些結果做成SEO Friendly的靜態(tài)化頁面。
聚合頁面之間需要做一些內鏈,并且在網站高權重頁面加索引入口,以加快收錄,從而獲得大量長尾流量。
這種做法對于B2B和分類信息網站來說都是慣用手段。
搜索引擎也會時不時打擊下這種頁面類型,但如果網站內容足夠豐富,搜索相關性不是太離譜,內容足夠支撐頁面的話,這種優(yōu)化方法必須要做。
詞庫搭建
因為聚合頁是由大量長尾關鍵詞自動生成,所以詞庫質量好壞,直接影響到搜索流量。
如何獲得大量長尾詞?
金花關鍵詞工具
戰(zhàn)神關鍵詞工具
5118關鍵詞拓展
5118付費會員可以下載某個域名下的全部百度PC關鍵詞。
通過以上工具,可以獲得大量長尾關鍵詞,以便于做后續(xù)的研究分析。
詞庫清洗
雖然可以通過第三方工具可以獲得大量關鍵詞,但是你需要做數(shù)據(jù)清洗,比如過濾一些違法詞,或者對關鍵詞進行文本分析替換或刪除。
如果詞量巨大,動輒百萬,甚至千萬的時候,常規(guī)的文本編輯器都很難處理了。(比如sublime,editplus等)
這時候需要用靠編程的手段來輔助處理,或者使用一些Linux下的強大文本處理指令,如Sed或Awk。這些工具Mac也是默認支持的。
比如我需獲取從300萬詞中提取純關鍵詞,就是不包含地區(qū)名(主要是城市名)、不包含”供應“、”價格“、”批發(fā)“等,最好是一個專有名詞,不包含其他修飾詞或組合。
比如”石家莊小松挖掘機價格“,處理后的”純詞“應為”小松挖掘機“。
這樣方便以后自己拓展,比如為了搶產品的價格和報價,我們可以組合詞 ”小松挖掘機價格“,”小松挖掘機報價“等長尾詞,這樣頁面設計和SEO元素都會更加精準,頁面質量也可以更高。
如果想做圖片詞聚合頁面,使用”純詞“ 另外組合出”小松挖掘機圖片“即可。
為了實現(xiàn)這樣的效果,需要簡單學一些sed命令。
刪除包含某個關鍵詞的行
比如我要刪除包含:”美女“ 關鍵詞的行。
sed -i.bak '/美女/d' filename
這個命令就可以刪除詞庫中包含”美女“這個關鍵詞的行,直接更新當前文件,并且對原始文件做一個備份,擴展名為.bak。(filename.bak)
關鍵詞替換
比如我要把所有關鍵詞中包含的”出口“換成“進口”:
sed -i.bak 's/出口/進口/g' filename
s字符代表替換,g代表全局替換,如果只替換第一個出現(xiàn)的“出口”,則可以去掉。
關鍵詞刪除
那刪除呢?其實就是也是一種替換,那就是把符合的詞,替換成空。
比如我要把所有關鍵詞中開頭包含的”供應“去掉:
sed -i.bak 's/^供應//g' filename
s字符代表替換,“^供應”代表以“供應”開頭的關鍵詞(支持正則),g代表替換所有“供應”,如果只替換第一個出現(xiàn)的“供應”,則可以去掉。
如果我要把所有關鍵詞中結尾包含的”廠“去掉:
sed -i.bak 's/廠$//g' filename
“廠$”代表以“廠”結尾的關鍵詞
根據(jù)關鍵詞長度過濾詞
刪除小于等于三個字符的關鍵詞
sed -i.bak -r '/^.{,3}$/d' filename
注意:這里不是按字節(jié)算的長度,比如即使UTF-8格式,也是每個漢字算1個,而不是算3。
刪除大于等于十個字符的關鍵詞
sed -i.bak -r '/^.{10,}$/d' filename
當然,值得字符長度區(qū)間也是可以的。
去掉所有匹配到的城市名
sed -i.bak 's/[鞍山|安陽|安慶|安康|阿克蘇|安順|阿勒泰|阿拉善|阿壩|阿里|阿拉爾|澳門|北京|保定|濱州|包頭|寶雞|本溪|蚌埠|北海|巴彥淖爾|白城|白山|亳州|巴中|白銀|百色|畢節(jié)|巴音郭楞|保山|博爾塔拉|成都|重慶|長沙|長春|常州|滄州|赤峰|承德|常德|長治|郴州|滁州|巢湖|潮州|昌吉|池州|楚雄|崇左|昌都|朝陽|常熟|慈溪|大連|東莞|德州|東營|大慶|大同|丹東|儋州|德陽|達州|大理|大興安嶺|定西|德宏|迪慶|釣魚島|鄂爾多斯|恩施|鄂州|福州|佛山|撫順|阜陽|阜新|撫州|防城港|廣州|貴陽|桂林|贛州|廣元|廣安|貴港|固原|甘南|甘孜|果洛|杭州|惠州|哈爾濱|合肥|呼和浩特|??趞邯鄲|菏澤|衡水|淮安|衡陽|葫蘆島|淮南|漢中|懷化|淮北|黃岡|湖州|黃石|呼倫貝爾|河源|鶴壁|鶴崗|黃山|紅河|河池|哈密|黑河|賀州|海西|和田|海北|海東|黃南|濟南|濟寧|吉林|錦州|金華|嘉興|江門|荊州|焦作|晉中|佳木斯|九江|晉城|荊門|雞西|吉安|揭陽|景德鎮(zhèn)|濟源|酒泉|金昌|嘉峪關|膠州|即墨|昆明|開封|喀什|克拉瑪依|庫爾勒|克孜勒蘇|昆山|蘭州|拉薩|廊坊|臨沂|洛陽|聊城|柳州|連云港|臨汾|漯河|遼陽|樂山|瀘州|六安|婁底|萊蕪|龍巖|呂梁|麗水|涼山|麗江|六盤水|遼源|來賓|臨滄|隴南|臨夏|林芝|綿陽|牡丹江|茂名|梅州|馬鞍山|眉山|南京|寧波|南寧|南昌|南通|南陽|南充|內江|南平|寧德|怒江|那曲|平頂山|濮陽|盤錦|莆田|攀枝花|萍鄉(xiāng)|平涼|普洱|郫縣|青島|瓊海|秦皇島|泉州|齊齊哈爾|清遠|曲靖|衢州|慶陽|七臺河|欽州|潛江|黔東南|黔南|黔西南|日照|日喀則|上海|深圳|沈陽|石家莊|蘇州|汕頭|商丘|三亞|宿遷|紹興|十堰|四平|三門峽|邵陽|上饒|遂寧|三明|綏化|石河子|宿州|韶關|松原|隨州|汕尾|雙鴨山|朔州|石嘴山|商洛|神農架|山南|雙流|天津|太原|唐山|泰安|臺州|泰州|鐵嶺|通遼|通化|天水|銅陵|銅川|銅仁|天門|塔城|吐魯番|圖木舒克|武漢|無錫|烏魯木齊|威海|濰坊|溫州|蕪湖|渭南|烏海|梧州|烏蘭察布|武威|文山|吳忠|五家渠|五指山|西安|廈門|西寧|徐州|咸陽|邢臺|襄陽|新鄉(xiāng)|湘潭|許昌|信陽|孝感|忻州|咸寧|新余|宣城|仙桃|錫林郭勒|湘西|興安|西雙版納|香港|銀川|宜昌|煙臺|揚州|鹽城|營口|岳陽|運城|榆林|宜賓|陽泉|延安|益陽|永州|玉林|宜春|陽江|延邊|玉溪|伊犁|云浮|伊春|雅安|鷹潭|玉樹|義烏|鄭州|珠海|淄博|中山|棗莊|張家口|株洲|鎮(zhèn)江|周口|湛江|駐馬店|肇慶|自貢|遵義|漳州|舟山|張掖|資陽|張家界|昭通|中衛(wèi)]//g' filename
根據(jù)字符串長度由小到大排序
cat filename | awk '{ print length, $0 }' | sort -n -s | awk '{print $2}' > another_filename
解釋:讀取文件“filename”的內容使用awk處理為“字符長度+關鍵詞”的兩列,然后排序,最后取第二列數(shù)值,然后另存為anther_filename
這樣就可以得到一個根據(jù)字符串長度排序的新文件。
Sed和Awk的功能非常強大,以上只是自己工作中用到幾條命令,這種好工具值得大家一起深入研究學習。
希望以后把詞庫處理做成一個標準化的腳本自動化處理,甚至加入百度指數(shù)、百度搜索結果數(shù)等指標來輔助判斷關鍵詞質量。
總結:
以上是自己處理詞庫的粗淺經驗分享,希望認識更多負責大中型網站SEO的朋友。
評論(0人參與,0條評論)
發(fā)布評論
最新評論