蜘蛛




蜘蛛(百度的是:baiduspider 谷歌的是:googbot)又稱為爬蟲,只是叫法不一樣。可理解為:搜索引擎的一個程序。搜索引擎程序(以下稱為“蜘蛛”)它到了你的網站,去到爬行,然后把結果反饋給搜索引擎服務器。蜘蛛在爬行網站的時候,最先檢測網站根目錄下的robots.txt文件,因為蜘蛛都會遵循這個原則,蜘蛛會檢測你robots下的文檔里有哪些東西允許抓取,有哪一些不允許抓取。如果你的網站有哪些不讓蜘蛛抓取,可以在robots里寫出。通常,只要在robots文檔里,一個星期左右的時間才會生效。
百度蜘蛛
蜘蛛根據網站robots文件允許收錄的網站,根據網站的鏈接開始爬行,蜘蛛會一沿著一個接一個往下爬,為避免程序問題,通常蜘蛛抓取的深度為5層以上。在做網站優(yōu)化過程中,蜘蛛一直沿著鏈接抓取。以前強調錨文本的重要性,在這里可以發(fā)揮出它的效果,每抓取一次,就給下我們網站的權重
蜘蛛為了重復抓取網址,它會生成一個地址庫,記錄地址庫服務中,記錄還沒抓取的頁面,以及過濾敏感關鍵詞頁面
蜘蛛根據抓取的內容,做分詞處理,按照算法對文章進行索引編號,存在自己的服務器上,用戶進行搜索的時候,按照一樣的規(guī)則顯示出來 。
吸引蜘蛛,根據我的經驗,只要網站的外鏈資源夠多(注:高質量外鏈),留的入口夠多,那么蜘蛛來網站抓取的次數就越多。