Robots文件是搜索引擎訪問網站時第一個要讀取的文件,它告訴搜索程序服務器上哪些內容可以抓取,
哪些不用抓取。
目前網站的robots文件里面的抓取規(guī)則已經日趨完善,比如禁止了網頁中圖片的抓取,禁止蜘蛛抓取一
些會員隱私(個人簡歷)頁面、一些無用頁面(之前的推廣頁面)、樣式表文件等,但是仍然有部分頁
面并不需要蜘蛛程序的抓取,這部分頁面只是面向用戶的,搜索引擎抓取了并沒有什么意義,瓜分了頁
面的權重。
一、網站的404頁面
每個網站都存在一些錯誤頁面,404頁面的存在就是為了當用戶訪問了錯誤頁面的時候能夠將用戶引導到
正確的頁面上,防止網站流量的流失。而一個頁面較多的網站肯定存在很多的錯誤頁面,這就導致存在
很多相似的404頁面:
所以,一旦404頁面太多,而還讓搜索引擎去收錄,就會導致網站把權重分給這些404頁面,所以應該屏
蔽404頁面。
添加規(guī)則:Disallow:/404.html
二、網站部分導航頁面
網站底部的一些導航頁面,如“市場合作”“網站聲明”“付費方式”等都是針對客戶的頁面,幾乎沒
有用戶通過搜索引擎上搜索這些頁面并到達網站,而且這些導航頁面是全站顯示的,所有的內容頁面都
存在,同樣的也要分散這些頁面的權重。
這部分頁面都是位于同一目錄/main下,該目錄下除保留部分頁面需蜘蛛進行抓取外,其他頁面可以都禁
止,保留頁面為:“關于我們”(main/aboutus.asp),友情鏈接(main/friendlink.asp)。此外“資
費標準”“付費方式”頁面位于企業(yè)會員中心頁面,這些頁面也沒有必要對搜索引擎開放。
添加規(guī)則:
Allow:/main/aboutus*
Allow:/main/friendlink*
Allow:/main/recruitmeeting*
Allow:/main/investigation*
Disallow:/main/
Disallow:/company/companyapplymember*
將現(xiàn)有規(guī)則中最后一條刪除:disallow: /main/refuse*
將新添加的兩條“Allow”規(guī)則放到disallow命令的前面。
通過一些對搜索引擎抓取意義不大的頁面,將首頁和一些內容頁面的權重更加集中。
評論(0人參與,0條評論)
發(fā)布評論
最新評論