觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
以下為內(nèi)容詳情:
3 網(wǎng)站優(yōu)化
3.1 抓取友好性
關(guān)于抓取的優(yōu)先級,在此重點強調(diào):
√ 網(wǎng)站更新頻率:經(jīng)常更新高價值的站點,優(yōu)先抓取
√ 受歡迎程度:用戶體驗好的站點,優(yōu)先抓取
√ 優(yōu)質(zhì)入口:優(yōu)質(zhì)站點內(nèi)鏈接,優(yōu)先抓取
√ 歷史的抓取效果越好,越優(yōu)先抓取
√ 服務(wù)器穩(wěn)定,優(yōu)先抓取
√ 安全記錄優(yōu)質(zhì)的網(wǎng)站,優(yōu)先抓取
順暢穩(wěn)定的抓取是網(wǎng)站獲得搜索用戶、搜索流量的重要前提,影響抓取的關(guān)鍵因素,站長可以通過本章節(jié)了解。
3.1.1 URL規(guī)范
網(wǎng)站的URL如何設(shè)置,可參考2.3. 1 中的URL設(shè)置規(guī)范
3.1.1.1 參數(shù)
URL中的參數(shù)放置,需遵循兩個要點:
√ 參數(shù)不能太復(fù)雜
√ 不要用無效參數(shù),無效參數(shù)會導(dǎo)致頁面識別問題,頁面內(nèi)容最終無法在搜索展示
另外,很多站長利用參數(shù)(對搜索引擎和頁面內(nèi)容而言參數(shù)無效)統(tǒng)計站點訪問行為,這里強調(diào)下,盡量不要出現(xiàn)這種形式資源,例如:
https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3
或者:
http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight
3.1.2 鏈接發(fā)現(xiàn)
3.1.2.1 百度蜘蛛
很多站長會咨詢?nèi)绾闻袛喟俣纫苿又┲?,這里推薦一種方法:只需兩步,正確識別百度蜘蛛
查看UA
如果UA都不對,可以直接判斷非百度搜索的蜘蛛,目前對外公布過的UA是:
移動UA 1:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/ search/ spider.html)
移動UA 2:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1
(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA 1:
Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC UA 2:
Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/ spider.html)
反查IP
站長可以通過DNS反查IP的方式判斷某只蜘蛛是否來自百度搜索引擎。根據(jù)平臺不同驗證方法不同,如Linux/Windows/OS三種平臺下的驗證方法分別如下:
在Linux平臺下,可以使用hostip命令反解IP來判斷是否來自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。
這里需要在提出一點,建議使用DNS更換為8.8.8. 8 后進行nslookup反向解析,否則很容易出現(xiàn)無返回或返回錯誤的問題。
在Windows平臺下,可以使用nslookup ip命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。
在Mac OS平臺下,網(wǎng)站可以使用dig命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入dig xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即為冒充。
3.1.2.2 鏈接提交
鏈接提交工具是網(wǎng)站主動向百度搜索推送數(shù)據(jù)的工具,網(wǎng)站使用鏈接提交可縮短爬蟲發(fā)現(xiàn)網(wǎng)站鏈接時間,目前鏈接提交工具支持四種方式提交:
√ 主動推送:是最為快速的提交方式,建議將站點當(dāng)天新產(chǎn)出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度抓取。
√ Sitemap:網(wǎng)站可定期將網(wǎng)站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會周期性的抓取檢查提交的Sitemap,對其中的鏈接進行處理,但抓取速度慢于主動推送。
√ 手工提交:如果不想通過程序提交,那么可以采用此種方式,手動將鏈接提交給百度。
√ 自動推送:是輕量級鏈接提交組件,將自動推送的JS代碼放置在站點每一個頁面源代碼中,當(dāng)頁面被訪問時,頁面鏈接會自動推送給百度,有利于新頁面更快被百度發(fā)現(xiàn)。
簡單來說:建議有新聞屬性站點,使用主動推送進行數(shù)據(jù)提交;新驗證平臺站點,或內(nèi)容無時效性要求站點,可以使用Sitemap將網(wǎng)站全部內(nèi)容使用Sitemap提交;技術(shù)能力弱,或網(wǎng)站內(nèi)容較少的站點,可使用手工提交方式進行數(shù)據(jù)提交;最后,還可以使用插件方式,自動推送方式給百度提交數(shù)據(jù)
評論(0人參與,0條評論)
發(fā)布評論
最新評論