有人說采集內容對搜索引擎友好性不高,不容易獲得排名,這個是肯定且必然的。
seo內容采集
對大多站點,上采集內容必定不如UGC、精心編輯過的內容來的效果好。但是,現(xiàn)在搜索引擎能獲取到的原創(chuàng)內容量已經(jīng)不如之前多了,畢竟內容生產(chǎn)平臺已經(jīng)轉移了,早就不集中在網(wǎng)站上了。另外幾個搜索引擎之間還相互抓,何況小站點呢。
所以采集內容依舊是有效的,只不過對采集內容后加工的成本越來越高了。
采集內容的后加工
擔心采集內容效果差,或者容易被K,主要還是看怎么對內容后加工。打個比方:
好比從沃爾瑪拿了一筐獼猴桃,原封不動的放到家樂福,頂多還只能是原來的售價,因為獼猴桃還是獼猴桃,商品不變。但把獼猴桃榨成汁(形態(tài)變化),加點水分瓶裝(粒度變化),再放到711里賣(平臺變化),售價可以翻幾倍(價值增益)
為啥?
因為形態(tài)變了,果汁是不同于水果的商品,且果汁更容易吸收
因為平臺變了,711定價本身就比沃爾瑪家樂福要高一點
因為粒度變了,一生二二生三三生萬物
前三者的變化,導致價值的翻倍
如果把“采集內容”比作“獼猴桃”,則對“采集內容”的后加工策略如下:
形態(tài)
組織內容方式無窮多,無論對同一個內容掰開了揉碎了分發(fā)到多處、還是多篇相關內容聚合到一處、還是其他方式,都可以讓搜索引擎更容易接受。
平臺
術業(yè)有專攻,從新浪抓一些垂直行業(yè)內容放到對應行業(yè)的垂直網(wǎng)站,肯定比放到新浪更合適。把專業(yè)化的內容放到專業(yè)的網(wǎng)站。
粒度
同樣是抓取的內容,粒度越細,在搜索引擎中的原創(chuàng)度越高。舉個極端的例子,星座股票起名八卦算命生辰八字風水算命qq圖片動態(tài)圖….此類型的站,哪個內容不是重復的?
增益
采集的目的在于補全內容上的漏洞,使同主題的內容比別人更加豐富飽滿充實,則產(chǎn)生了頁面內容價值上的增益。
采集內容完整流程
關于“采集內容處理”,從抓取到上線整個流程看,要搞定以下問題:
采集內容從哪來?
采集內容怎么抓?
采集內容如何處理?
采集內容從哪來?
對于正經(jīng)做站且做正經(jīng)站的,定向采集、買專業(yè)數(shù)據(jù)更合適。
定向采集,只抓幾個特定網(wǎng)站的特定范圍,與本站內容漏洞高度相關的。
對于不正經(jīng)做站的,可選擇的范圍就多很多了,沾點邊的內容都可以抓,講究量大,所以不需要限定某幾個站的抓取,有人叫泛采集
設置幾個主題,直接抓各種大平臺的搜索結果便可。大平臺指什么?海量內容集中的地方:各類搜索引擎、各類門戶、今日頭條、微信微博、優(yōu)酷土豆等等
采集內容怎么抓?
定向采集:
略,平常怎么抓就怎么抓。
泛采集:
定向爬蟲受限于網(wǎng)頁模板,在此基礎上加上幾個內容分析算法來提取內容,改成通用爬蟲。
好多瀏覽器插件,如印象筆記之類的,有好多類似“只看正文”的功能,點一下只顯示當前瀏覽網(wǎng)頁的正文信息,很多人已經(jīng)把此類算法移植到python、php、java等編程語言上,搜索下便是。
采集內容如何處理?
兩個先后過程:
對原始內容的處理
對處理后內容進行組織
對原始內容的處理
百度專利說過,搜索引擎除了根據(jù)正文判斷內容相似性,也會根據(jù)html的dom節(jié)點的位置和順序來判斷,如果兩個網(wǎng)頁正文的html的結構相似,也可能當做重復內容來處理。
所以,采集的內容不能直接拿來就上,要對源碼清洗一下。每個人方式各異,個人一般做如下處理:
html清洗
保留主要標簽:p、img
刪除標簽中不重要的屬性
a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip()
b = re.sub(r'<p[^>]*?>','<p>',a)
newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()
刪除中文字數(shù) < 100字的
text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)
text2 = re.sub('<[^>]*?>','',text)
words_number = len(text2)
去除垃圾信息
如“XXX網(wǎng)小編:XXX”、郵箱網(wǎng)址等。。。
對處理后內容進行組織
評論(0人參與,0條評論)
發(fā)布評論
最新評論