觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
一個(gè)完整的網(wǎng)站,301重定向、404頁面自定義和robots.txt文件都是必有的,沒有為什么,301是為了集權(quán);404是在網(wǎng)站出現(xiàn)死鏈的時(shí)候引導(dǎo)蜘蛛以及增加用戶體驗(yàn);那robots.txt文件是做什么的呢?它有什么作用呢?
一、robots文件是什么?
robots.txt文件是存放在網(wǎng)站根目錄下面的一個(gè)TXT文本文檔.它是網(wǎng)站和蜘蛛之間的一個(gè)協(xié)議.
二、robots文件有什么作用?
如果你網(wǎng)站根目錄有robots.txt這樣一個(gè)文件,那蜘蛛在爬行你網(wǎng)站的時(shí)候就會首先訪問這個(gè)文件(robots文件一般都要存放在根目錄,蜘蛛第一個(gè)訪問的文件,因此這個(gè)文件是很重要的).robots文件的作用是告訴搜索引擎蜘蛛,網(wǎng)站的哪些文件夾可以抓取,哪些文件夾不能抓取,從而確保我們網(wǎng)站的隱私內(nèi)容不會被收錄.
三、robots文件怎么寫?
1.定義搜索引擎
用User-agent:來定義搜索引擎,其中*表示所有
百度蜘蛛名字:Baiduspider,谷歌蜘蛛名字:Googlebot.
User-agent:*表示定義所有蜘蛛
User-agent: Baiduspider表示自定義百度蜘蛛,
User-agent: Googlebot表示自定義谷歌蜘蛛
大家可以參考百度或者淘寶的robots.txt,他么就是這樣寫的,而我們小站只需要自定義所有搜索引擎蜘蛛即可.
2.禁止訪問和允許訪問
User-agent: *
Disallow: /
表示禁止所有搜索引擎訪問;
User-agent: *
Allow: /
表示允許所有搜索引擎訪問.
PS:在:后面/前面有一個(gè)英文狀態(tài)下的空格,空格必須有,必須是英文狀態(tài)下的
3.禁止搜索引擎訪問網(wǎng)站中的某些目錄
假設(shè)a是我網(wǎng)站根目錄的一個(gè)文件夾,寫法分別如下:
User-agent: *
Disallow: /a
禁止搜索引擎訪問a文件夾及a文件夾下面的所有文件
User-agent: *
Disallow: /a/
禁止搜索引擎訪問a文件夾下面的所有文件,但是a文件夾是允許被訪問的(這里闡述不太清楚,具體大家可以去百度站長平臺測試)
4、禁止搜索引擎訪問某一類文件
$表示結(jié)尾,如果要禁止搜索引擎訪問css結(jié)尾的文件,寫法如下:
User-agent: *
Disallow: /*.css$
如果要禁止搜索引擎訪問js結(jié)尾的文件,寫法如下:
User-agent: *
Disallow: /*.js$
*號表示所有,$表示結(jié)尾,上面兩個(gè)舉例則表示所有css或者js結(jié)尾的文件
5.禁止訪問網(wǎng)站中的動態(tài)頁面
禁止訪問網(wǎng)站中的動態(tài)頁面,寫法如下:
User-agent: *
Disallow: /*?*
?表示動態(tài)路徑,*號表示所有.
6.禁止訪問某個(gè)字母開頭的文件
為了隱藏我們網(wǎng)站的一些目錄,如后臺地址等,假如shenshan這個(gè)文件夾是我網(wǎng)站的后臺地址,我不想讓別人通過robots.txt文件看到它,可以這樣寫
User-agent: *
Disallow: /sh*
這就表示所有sh開頭的目錄都不能訪問
7.允許訪問首頁
只允許搜索引擎蜘蛛訪問我們網(wǎng)站首頁,寫法如下:
User-agent: *
Disallow: /*
頭條的robots.txt就是這樣寫的(似乎暴露了什么).
8.禁止訪問二級目錄
如果我有兩個(gè)文件夾下面同時(shí)存在shenshan這個(gè)文件夾,我又不想讓搜索引擎訪問shenshan這個(gè)文件夾,可以這樣寫:
User-agent: *
Disallow: /*/shenshan
三、書寫robots文件注意事項(xiàng)
1.robots文件的后綴必須是.txt;
2.robots文件應(yīng)該存放在網(wǎng)站的根目錄,而且所有字母都必須小寫;
3.在寫robots文件的時(shí)候,User-agent、Disallow、Allow、Sitemap這些詞開頭第一個(gè)字母必須大寫,后面的字母則要小寫;
4.特別注意,在:后面必須有一個(gè)英文狀態(tài)下的空格.
評論(0人參與,0條評論)
發(fā)布評論
最新評論