蜘蛛訪問的第一個文件一定要避免這些錯誤
Robots.txt文件看似只有幾行字母,但是其實(shí)有很多細(xì)節(jié)需要我們注意的。因?yàn)槿绻悴蛔⒁膺@些細(xì)節(jié),有的語句將不會發(fā)揮效果,甚至出現(xiàn)發(fā)效果。而robots.txtt文件是搜索引擎進(jìn)入我們站點(diǎn)后訪問的第一個文件,其寫的好不好關(guān)系到站點(diǎn)的seo能否順利進(jìn)行。下面筆者將舉例分析三個在robots.txt文件時(shí)我們?nèi)菀壮霈F(xiàn)的細(xì)節(jié)上的錯誤。
錯誤一:Allow與disallow順序顛倒
首先我們來看一段robots.txt語句:
User-agent: *
Allow: /
Disallow: /abcd/
這段語句初看我們可以得到目的是告訴搜索引擎在abcd目錄下面的頁面不能抓取,但是其他所有的頁面可以。但是這段語句的實(shí)際效果如何呢?效果是背道而馳的,為什么呢?我們知道搜索引擎蜘蛛對于robots文件中的規(guī)則的執(zhí)行是從上到下的。這將會造成Disallow語句失效,正確的做法,是要把Disallow: /abcd/置于Allow: /前才能發(fā)揮我們想要的效果。
錯誤二:屏蔽某一個頁面時(shí),頁面名前沒有帶上斜杠“/”
我想這一點(diǎn)很多站長也很容易忽視掉,打個比方,我們想要對搜索引擎屏蔽在根目錄下的abcd.html這一頁面,有的人在robots上可能會這么寫:Disallow: abcd.html,表面上看可能沒什么問題,但是筆者想要問一下你先告知搜搜引擎屏蔽的這一頁面在什么目錄下面?如果我們不帶上的話,搜索引擎蜘蛛無法識別是在哪一個頁面。正確的寫法是:Disallow: /abcd.html,這樣才能真正的屏蔽位于根目錄下面的abcd.html這一頁面。
錯誤三:屏蔽的后面沒有跟上斜杠“/”
同樣舉個例子,比如我們想屏蔽/abcd/這一目錄下面的頁面,有的人可能會這樣寫Disallow: /abcd。這樣寫是否有問題呢?這樣寫依然有問題,而且問題很大條。這樣雖然可以屏蔽掉/abcd/這一目錄下面的所有頁面。但是這也會傳遞給搜索引擎這樣的信息,那就是屏蔽開頭為/abcd的所有頁面。效果等同于是Disallow: /abcd’*。這個錯誤將會給站點(diǎn)照成很大的影響。正確的做法是,在想要屏蔽的目錄后面切記需要加上斜杠“/”。
對于robots.txt文件的重要性想必很多站長都深有體會。如果我們不重視這些書寫的小細(xì)節(jié)的不僅會失去robotss.txt原有的效果,還會引起不必要的反效果。