屏蔽蜘蛛抓取的五個辦法
怎樣屏蔽蜘蛛的抓取,我們常用的辦法有兩個,一個是編輯robots.txt文件,另外一個是在不想被收錄的頁面頭部放置META NAME="ROBOTS"標(biāo)簽。
所謂的robots.txt文件,是每一個搜索引擎到你的網(wǎng)站之后要尋找和訪問的第一個文件,robots.txt是你對搜索引擎制定的一個如何索引你的網(wǎng)站的規(guī)則。通過這個文件,搜索引擎就可以知道在你的網(wǎng)站中,哪些文件是可以被索引的,哪些文件是被拒絕索引的。
絕大多數(shù)站長都知道,網(wǎng)站能夠在搜索引擎里獲得很好的排名是非常重要的,于是很多站長竭盡討好搜索引擎之能事,恨不得把搜索引擎的蜘蛛當(dāng)成皇上來看待,希望能夠獲得蜘蛛的賞識,從而提升網(wǎng)站的排名,可是事實上,即使把蜘蛛伺候好了,也不能夠獲得很好的排名,這是為什么呢?因為蜘蛛并沒有人類的情感,即時你把它當(dāng)成皇上他也對你毫無憐憫,該怎樣就怎樣,所以在網(wǎng)站優(yōu)化方面,并不是對蜘蛛越好優(yōu)化效果就越好,而是要懂得取舍!要學(xué)會屏蔽一些蜘蛛的技巧!比如除了限制蜘蛛在ADMIN和DATA上的爬行,還可以在其他的目錄上適當(dāng)?shù)钠帘沃┲耄彩欠浅S泻锰幍?,下面就來分析幾種屏蔽蜘蛛的技巧!
一:圖片和模板目錄都可以進(jìn)行屏蔽
因為目前很多站長都是在互聯(lián)網(wǎng)上找相同的圖片和套用現(xiàn)成的模板,這些模板和圖片已經(jīng)在互聯(lián)網(wǎng)泛濫了,此時你還讓你的網(wǎng)站被蜘蛛再次爬行這些老掉牙的東西,自然會讓蜘蛛非常的反感,從而讓你的網(wǎng)站貼上模仿作弊的標(biāo)簽,想要獲得搜索引擎的青睞反而是更加困難,所以IMAGES目錄通??梢云帘?
二:緩存目錄可以屏蔽,防止重復(fù)索引
蜘蛛是非常貪婪的,只要你給他喂食,它是不管真實還是虛幻都照單全收,比如網(wǎng)站的緩存目錄里面的內(nèi)容,蜘蛛也會照樣來進(jìn)行索引,這勢必和網(wǎng)站里面的內(nèi)容出現(xiàn)了重復(fù),如果出現(xiàn)重復(fù)的數(shù)量過多,那么百度的算法機(jī)制就會認(rèn)為你的網(wǎng)站在作弊,從而甚至提升你網(wǎng)站的權(quán)重,給網(wǎng)站帶來極大的影響,通常每種建站程序的緩存目錄是不一樣的,要根據(jù)不同的建站程序來屏蔽相應(yīng)的緩存目錄是很有必要的!
三:CSS目錄及部分RSS頁需要屏蔽
CSS目錄對于蜘蛛而言是完全無用的,抓取后反而會影響搜索引擎算法的判斷,所以可以通過ROBOTS.TXT文件來進(jìn)行屏蔽,另外很多建站程序的RSS頁也是一種內(nèi)容的重復(fù),抓取后也會造成搜索引擎的誤判斷,這兩個方面的內(nèi)容都需要屏蔽!這種屏蔽看起來是對蜘蛛的大不敬,實際上卻如良藥苦口利于病!忠言逆耳利于行!
四:如果有雙頁面,那么優(yōu)先屏蔽動態(tài)頁面
一般而言,網(wǎng)站的靜態(tài)頁面是很容易被搜索引擎收錄,通常蜘蛛抓取和收錄是兩回事,網(wǎng)站除了靜態(tài)頁面之外,大部分網(wǎng)站還存在著動態(tài)的頁面,比如“www.XXXX/1.html這兩個指的是同一個頁面,如果不進(jìn)行屏蔽的話,勢必造成兩個頁面同時被蜘蛛抓取,可是到了搜索引擎算法判斷的時候,因為發(fā)現(xiàn)了兩個一樣的頁面,就會認(rèn)為你網(wǎng)站存在作弊的嫌疑,所以加大對你網(wǎng)站的考察力度,從而影響到網(wǎng)站的排名,所以正確的做法是優(yōu)先屏蔽網(wǎng)站的動態(tài)頁面!
五:服務(wù)器屏蔽
許多空間商為了減少服務(wù)器負(fù)擔(dān),故意屏蔽蜘蛛抓取,導(dǎo)致網(wǎng)站無法被搜索引擎收錄,在這里我們也可以設(shè)置利用服務(wù)器屏蔽搜索器的抓取。主要原理是分析網(wǎng)站日志,找到搜索引擎抓取的IP,然后對其IP進(jìn)行屏蔽。但是這種方法并不是很實用,畢竟不能屏蔽單頁面和修改都不是很靈活。具體方法需要參考服務(wù)器設(shè)置。