一:什么是robots協(xié)議
robots協(xié)議(也稱為爬蟲協(xié)議、爬蟲規(guī)則、機器人協(xié)議等)也就是robots.txt,網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不希望被抓取。
? Robots協(xié)議是網(wǎng)站國際互聯(lián)網(wǎng)界通行的道德規(guī)范,其目的是保護網(wǎng)站數(shù)據(jù)和敏感信息、確保用戶個人信息和隱私不被侵犯。
? 因其不是命令,是一種單方面協(xié)議,故需要搜索引擎自覺遵守。
二:robots.txt放置位置
robots.txt文件應該放置在網(wǎng)站根目錄下。
例如,當spider訪問一個網(wǎng)站(比如 http://www.taobao.com)時,首先會檢查該網(wǎng)站中是否存在http://www.taobao.com/robots.txt這個文件,如果 Spider找到這個文件,它就會根據(jù)這個文件的內(nèi)容,來確定它訪問權限的范圍。
三:robots.txt文件的寫法
操作步驟:
1.新建一個文本文檔,命名為robots.txt
2.開始寫robots
User-agent: * (*針對所有搜索引擎)
Disallow: / (禁止爬取所有頁面,/代表目錄)
Disallow: /admin/ (禁止抓取admin目錄)
Disallow: /admin (禁止抓取包含admin的路徑)
Allow: /admin/s3.html (允許抓取admin目錄下s3.html文件)
一個“/”表示路徑,兩個“/”表示文件夾
Allow: /admin/php/ (允許抓取admin下面的php文件的所有內(nèi)容)
Disallow: /.css$ (禁止抓取所有帶.css的文件)
sitemap:***
注意:
? 冒號后面有空格,空格后面都有/(都要以/開頭),開頭第一個字母大寫
? 因為搜索引擎蜘蛛來抓取網(wǎng)站的時候最先看的就robots文件,我們把網(wǎng)站地圖的地址放到robots協(xié)議中有利于搜索引擎蜘蛛的抓取,從而提高網(wǎng)站的收錄。
評論(0人參與,0條評論)
發(fā)布評論
最新評論