觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
關(guān)于這個正確的寫法,蛋疼博客-老林參考了很多作者的寫法、還有百度的文獻,發(fā)現(xiàn)有的作者解釋或者寫法太過簡單,造成新手不易理解,當然蛋疼博客-老林也不敢保證百分百解釋得讓你很明白.
是以什么形式存在?就是一份網(wǎng)站和搜索引擎雙方簽訂的規(guī)則協(xié)議書.每一個搜索引擎的蜘蛛訪問一個站點時,它首先爬行來檢查該站點根目錄下是否存在.如果存在,蜘蛛就會按照該協(xié)議書上的規(guī)則來確定自己的訪問范圍;如果沒有,那么蜘蛛就會沿著鏈接抓取.
請牢牢記住:必須放置在站點的根目錄下,而且文件名必須全部小寫.Disallow后面的冒號必須為英文狀態(tài)的.
我們先來理解User-agent和Disallow的定義.
● User-agent:該項用于描述搜索引擎蜘蛛的名字.(1)規(guī)定所有蜘蛛:User-agent:*;(2)規(guī)定某一個蜘蛛:User-agent:BaiduSpider.
● Disallow:該項用于描述不希望被抓取和索引的一個URL,這個URL可以是一條完整的路徑.這有幾種不同定義和寫法:(1)Disallow:/,任何以域名+Disallow描述的內(nèi)容開頭的URL均不會被蜘蛛訪問,也就是說以目錄內(nèi)的文件均不會被蜘蛛訪問;(2)Disallow:/則允許robots抓取和索引,而不能抓取和索引;(3)如果Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問.在文件中,至少應(yīng)有Disallow記錄,如果為空文件,則對所有的搜索引擎robot來說,該網(wǎng)站都是開放的.
1、國內(nèi)建站需要用到的常見搜索引擎robot的名稱.
有時候我們覺得網(wǎng)站訪問量(IP)不多,但是網(wǎng)站流量為什么耗的快?有很多的原因是垃圾(沒有)蜘蛛爬行和抓取消耗的.而網(wǎng)站要屏蔽哪個搜索引擎或只讓哪個搜索引擎收錄的話,首先要知道每個搜索引擎robot的名稱.
2、文件基本常用寫法:
首先,你先建一個空白文本文檔(記事本),然后命名為:.
(1)禁止所有搜索引擎訪問網(wǎng)站的任何部分.
User-agent: *
Disallow: /
(2)允許所有的robots訪問,無任何限制.
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
還可以建立一個空文件或者不建立.
(3)僅禁止某個搜索引擎的訪問(例如:百度baiduspider)
User-agent: BaiduSpider
Disallow:/
(4)允許某個搜索引擎的訪問(還是百度)
User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
這里需要注意,如果你還需要允許谷歌bot,那么也是在"User-agent: *"前面加上,而不是在"User-agent: *"后面.
(5)禁止Spider訪問特定目錄和特定文件(圖片、壓縮文件).
User-agent: *
Disallow: /
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
這樣寫之后,所有搜索引擎都不會訪問這2個目錄.需要注意的是對每一個目錄必須分開說明,而不要寫出"Disallow:/ /admin/".
歡迎轉(zhuǎn)載【詳細的robots.txt學(xué)習(xí)方法】,請注明轉(zhuǎn)自:上海seo優(yōu)化公司 http://www.seo-999.com/article/6346s.html!
評論(0人參與,0條評論)
發(fā)布評論
最新評論