觸屏版
全國(guó)服務(wù)熱線:0571-87205688
登錄
注冊(cè)
客戶中心
關(guān)注云客
有人說(shuō)采集內(nèi)容對(duì)搜索引擎友好性不高,不容易獲得排名,這個(gè)是肯定且必然的。
seo內(nèi)容采集
對(duì)大多站點(diǎn),上采集內(nèi)容必定不如UGC、精心編輯過(guò)的內(nèi)容來(lái)的效果好。但是,現(xiàn)在搜索引擎能獲取到的原創(chuàng)內(nèi)容量已經(jīng)不如之前多了,畢竟內(nèi)容生產(chǎn)平臺(tái)已經(jīng)轉(zhuǎn)移了,早就不集中在網(wǎng)站上了。另外幾個(gè)搜索引擎之間還相互抓,何況小站點(diǎn)呢。
所以采集內(nèi)容依舊是有效的,只不過(guò)對(duì)采集內(nèi)容后加工的成本越來(lái)越高了。
采集內(nèi)容的后加工
擔(dān)心采集內(nèi)容效果差,或者容易被K,主要還是看怎么對(duì)內(nèi)容后加工。打個(gè)比方:
好比從沃爾瑪拿了一筐獼猴桃,原封不動(dòng)的放到家樂(lè)福,頂多還只能是原來(lái)的售價(jià),因?yàn)楂J猴桃還是獼猴桃,商品不變。但把獼猴桃榨成汁(形態(tài)變化),加點(diǎn)水分瓶裝(粒度變化),再放到711里賣(平臺(tái)變化),售價(jià)可以翻幾倍(價(jià)值增益)
為啥?
因?yàn)樾螒B(tài)變了,果汁是不同于水果的商品,且果汁更容易吸收
因?yàn)槠脚_(tái)變了,711定價(jià)本身就比沃爾瑪家樂(lè)福要高一點(diǎn)
因?yàn)榱6茸兞耍簧f(wàn)物
前三者的變化,導(dǎo)致價(jià)值的翻倍
如果把“采集內(nèi)容”比作“獼猴桃”,則對(duì)“采集內(nèi)容”的后加工策略如下:
形態(tài)
組織內(nèi)容方式無(wú)窮多,無(wú)論對(duì)同一個(gè)內(nèi)容掰開(kāi)了揉碎了分發(fā)到多處、還是多篇相關(guān)內(nèi)容聚合到一處、還是其他方式,都可以讓搜索引擎更容易接受。
平臺(tái)
術(shù)業(yè)有專攻,從新浪抓一些垂直行業(yè)內(nèi)容放到對(duì)應(yīng)行業(yè)的垂直網(wǎng)站,肯定比放到新浪更合適。把專業(yè)化的內(nèi)容放到專業(yè)的網(wǎng)站。
粒度
同樣是抓取的內(nèi)容,粒度越細(xì),在搜索引擎中的原創(chuàng)度越高。舉個(gè)極端的例子,星座股票起名八卦算命生辰八字風(fēng)水算命qq圖片動(dòng)態(tài)圖….此類型的站,哪個(gè)內(nèi)容不是重復(fù)的?
增益
采集的目的在于補(bǔ)全內(nèi)容上的漏洞,使同主題的內(nèi)容比別人更加豐富飽滿充實(shí),則產(chǎn)生了頁(yè)面內(nèi)容價(jià)值上的增益。
采集內(nèi)容完整流程
關(guān)于“采集內(nèi)容處理”,從抓取到上線整個(gè)流程看,要搞定以下問(wèn)題:
采集內(nèi)容從哪來(lái)?
采集內(nèi)容怎么抓?
采集內(nèi)容如何處理?
采集內(nèi)容從哪來(lái)?
對(duì)于正經(jīng)做站且做正經(jīng)站的,定向采集、買專業(yè)數(shù)據(jù)更合適。
定向采集,只抓幾個(gè)特定網(wǎng)站的特定范圍,與本站內(nèi)容漏洞高度相關(guān)的。
對(duì)于不正經(jīng)做站的,可選擇的范圍就多很多了,沾點(diǎn)邊的內(nèi)容都可以抓,講究量大,所以不需要限定某幾個(gè)站的抓取,有人叫泛采集
設(shè)置幾個(gè)主題,直接抓各種大平臺(tái)的搜索結(jié)果便可。大平臺(tái)指什么?海量?jī)?nèi)容集中的地方:各類搜索引擎、各類門戶、今日頭條、微信微博、優(yōu)酷土豆等等
采集內(nèi)容怎么抓?
定向采集:
略,平常怎么抓就怎么抓。
泛采集:
定向爬蟲(chóng)受限于網(wǎng)頁(yè)模板,在此基礎(chǔ)上加上幾個(gè)內(nèi)容分析算法來(lái)提取內(nèi)容,改成通用爬蟲(chóng)。
好多瀏覽器插件,如印象筆記之類的,有好多類似“只看正文”的功能,點(diǎn)一下只顯示當(dāng)前瀏覽網(wǎng)頁(yè)的正文信息,很多人已經(jīng)把此類算法移植到python、php、java等編程語(yǔ)言上,搜索下便是。
采集內(nèi)容如何處理?
兩個(gè)先后過(guò)程:
對(duì)原始內(nèi)容的處理
對(duì)處理后內(nèi)容進(jìn)行組織
對(duì)原始內(nèi)容的處理
百度專利說(shuō)過(guò),搜索引擎除了根據(jù)正文判斷內(nèi)容相似性,也會(huì)根據(jù)html的dom節(jié)點(diǎn)的位置和順序來(lái)判斷,如果兩個(gè)網(wǎng)頁(yè)正文的html的結(jié)構(gòu)相似,也可能當(dāng)做重復(fù)內(nèi)容來(lái)處理。
所以,采集的內(nèi)容不能直接拿來(lái)就上,要對(duì)源碼清洗一下。每個(gè)人方式各異,個(gè)人一般做如下處理:
html清洗
保留主要標(biāo)簽:p、img
刪除標(biāo)簽中不重要的屬性
a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip()
b = re.sub(r'<p[^>]*?>','<p>',a)
newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()
刪除中文字?jǐn)?shù) < 100字的
text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)
text2 = re.sub('<[^>]*?>','',text)
words_number = len(text2)
去除垃圾信息
如“XXX網(wǎng)小編:XXX”、郵箱網(wǎng)址等。。。
對(duì)處理后內(nèi)容進(jìn)行組織
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論