Robots.txt文件的用法和作用




seo工作者應(yīng)該不陌生,robots.txt文件是每一個(gè)搜索引擎蜘蛛到你的網(wǎng)站之后要尋找和訪問(wèn)的第一個(gè)文件,robots.txt是你對(duì)搜索引擎制定的一個(gè)如何索引你的網(wǎng)站的規(guī)則。通過(guò)該文件,搜索引擎就可以知道在你的網(wǎng)站中哪些文件是可以被索引的,哪些文件是被拒絕索引的,我們就可以很方便地控制搜索索引網(wǎng)站內(nèi)容了。
首先我們應(yīng)該明白R(shí)obots.txt文件是網(wǎng)站與搜索引擎之間的一種協(xié)議,當(dāng)搜索引擎來(lái)抓取你網(wǎng)站的時(shí)候,首先會(huì)看你網(wǎng)站根目錄的Robots文件,搜索引擎會(huì)根據(jù)你寫(xiě)的這個(gè)協(xié)議來(lái)抓取你的網(wǎng)站內(nèi)容,當(dāng)然抓取的頁(yè)面都是由你寫(xiě)的Robots來(lái)確定的。
Robots的基本概念與作用
搜索引擎使用spider程序來(lái)訪問(wèn)網(wǎng)站里面的內(nèi)容,但是你的Robots文件可以告訴它那個(gè)頁(yè)面可以訪問(wèn),那個(gè)頁(yè)面不可以訪問(wèn),有些人認(rèn)為網(wǎng)站當(dāng)然容許抓取訪問(wèn)了。錯(cuò),一些網(wǎng)站后臺(tái)隱私文件、js、死鏈這些都是需要屏蔽的。
Robots常見(jiàn)的規(guī)則
1.User-agent指令
此指令定義了此指令下面的內(nèi)容對(duì)哪些蜘蛛有效。默認(rèn)所有蜘蛛都允許抓取,如果此指令指定了特定的蜘蛛,那么此指令下跟的內(nèi)容就對(duì)特定蜘蛛有效。
2.Disallow指令
指禁止搜索引擎抓取的路徑,也就是說(shuō)此指令定義了禁止蜘蛛抓取哪些內(nèi)容。
3.Allow指令
允許搜索引擎收錄的地址,此指令定義了允許蜘蛛抓些哪些內(nèi)容,如果是某些內(nèi)容允許,其它全部拒絕,則可以用這個(gè)指令,大多數(shù)網(wǎng)站只用到禁止指令。
User-agent的用法示例
此指令是用來(lái)定義蜘蛛名的:常見(jiàn)的蜘蛛名包括:Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。
Disallow的用法示例
1.禁止整站被抓?。?/span>Disallow: /
2.禁止根目錄下的woniuseo目錄抓?。?/span>Disallow: /woniuseo/
3.禁止根目錄下的woniuseo目錄下的單個(gè)頁(yè)面woniuseo.html被抓?。?/span>
Disallow:/woniuseo/woniuseo.html
4.禁止全站含有?的頁(yè)面被抓取:Disallow: /*?*
5.禁止全站含有woniuseo的頁(yè)面被抓?。?/span>Disallow: /*woniuseo*
6.禁止全站后綴為.aspx的頁(yè)面被抓?。?/span>
Disallow: /*.aspx$
7.禁止全站后綴為.jpg的文件被抓取:Disallow:/*.jpb$
Allow的用法示例
1.允許所有頁(yè)面被抓?。?/span>Allow: /
2.允許woniuseo的目錄被抓取:Allow: /woniuseo/
3.允許抓取.html的頁(yè)面:Allow: /*.html$
4.允許抓取.jpg的圖片:Allow: /*.jpg$