觸屏版
全國(guó)服務(wù)熱線(xiàn):0571-87205688
網(wǎng)站建設(shè)好了,當(dāng)然是希望網(wǎng)頁(yè)被搜索引擎收錄的越多越好,但有時(shí)候我們也會(huì)碰到網(wǎng)站不需要被搜索引擎收錄的情況。
比如,你要啟用一個(gè)新的域名做鏡像網(wǎng)站,主要用于PPC 的推廣,這個(gè)時(shí)候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網(wǎng)站的所有網(wǎng)頁(yè)。因?yàn)槿绻R像網(wǎng)站也被搜索引擎收錄的話(huà),很有可能會(huì)影響官網(wǎng)在搜索引擎的權(quán)重,這肯定是我們不想看到的結(jié)果。
以下列舉了屏蔽主流搜索引擎爬蟲(chóng)(蜘蛛)抓取/索引/收錄網(wǎng)頁(yè)的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(chóng)(蜘蛛)。
1、通過(guò) robots.txt 文件屏蔽
可以說(shuō) robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對(duì)話(huà))。我通過(guò)分析我自己博客的服務(wù)器日志文件,給出以下建議(同時(shí)歡迎網(wǎng)友補(bǔ)充):
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過(guò) meta tag 屏蔽
在所有的網(wǎng)頁(yè)頭部文件添加,添加如下語(yǔ)句:
<meta name="robots" content="noindex, nofollow">
3、通過(guò)服務(wù)器(如:Linux/nginx )配置文件設(shè)置
直接過(guò)濾 spider/robots 的IP 段。
小注:第1招和第2招只對(duì)“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分別泛指指遵守與不遵守 robots.txt 協(xié)議的 spider/robots),所以網(wǎng)站上線(xiàn)之后要不斷跟蹤分析日志,篩選出這些 badbot 的ip,然后屏蔽之。
這里有一個(gè)badbot ip 數(shù)據(jù)庫(kù):http://www.spam-whackers.com/bad.bots.htm
4、通過(guò)搜索引擎提供的站長(zhǎng)工具,刪除網(wǎng)頁(yè)快照
比如,有的時(shí)候百度不嚴(yán)格遵守 robots.txt 協(xié)議,可以通過(guò)百度提供的“網(wǎng)頁(yè)投訴”入口刪除網(wǎng)頁(yè)快照。百度網(wǎng)頁(yè)投訴中心:http://tousu.baidu.com/webmaster/add
大概3天左右的時(shí)間過(guò)去,這個(gè)網(wǎng)頁(yè)的百度快照也被刪除,說(shuō)明此種方法也能起效,當(dāng)然這是不得而為之,屬于亡羊補(bǔ)牢。
5、補(bǔ)充更新
可以通過(guò)檢測(cè) HTTP_USER_AGENT 是否為爬蟲(chóng)/蜘蛛訪(fǎng)問(wèn),然后直接返回403 狀態(tài)碼屏蔽之。比如:由于api 權(quán)限與微博信息隱私保護(hù)原因,Xweibo 2.0 版本后禁止搜索引擎收錄。
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論