高級(jí)seo搜索原理
搜索引擎的工作區(qū)域主要分為四大部分,下載系統(tǒng)、分析系統(tǒng)、檢索系統(tǒng)、查詢系統(tǒng)。這一篇文章主要講一下下載系統(tǒng)的那些事,希望看官能夠?qū)λ阉饕婺苡幸粋€(gè)初步的看法,這樣就會(huì)避免掉很多錯(cuò)誤觀念的影響。.
蜘蛛下載過(guò)程與瀏覽器類似,不同點(diǎn)在于蜘蛛僅下載HTML文件,不對(duì)文件進(jìn)行渲染,不加載圖片、Flash等內(nèi)容,一般情況下不加載JS。
蜘蛛在采集網(wǎng)站信息時(shí)會(huì)考慮網(wǎng)站的網(wǎng)絡(luò)負(fù)載,根據(jù)網(wǎng)站的網(wǎng)絡(luò)帶寬來(lái)控制抓取量。一般情況下,負(fù)載是基于IP控制的。故而,增加網(wǎng)站的帶寬是有利于SEO的。當(dāng)然,如果是共享IP的網(wǎng)站,這點(diǎn)很難控制。
下載過(guò)程大致可分為四個(gè)步驟:DNS解析、TCP連接、服務(wù)器計(jì)算、HTML下載。
DNS解析主要跟DNS服務(wù)器性能有關(guān),另外與解析方式也有一定關(guān)系。對(duì)于SEO而言,可以通過(guò)測(cè)試選擇專業(yè)的DNS服務(wù)商。在這個(gè)步驟最容易出現(xiàn)的情況是運(yùn)營(yíng)部門屏蔽蜘蛛IP,因?yàn)橹┲肱廊∵^(guò)程很類似DOS攻擊。
TCP連接速度主要取決于Web服務(wù)器能否快速接入請(qǐng)求,一般而言,當(dāng)服務(wù)器同時(shí)接入大量請(qǐng)求信息時(shí)會(huì)產(chǎn)生擁堵甚至拒絕接入的情況,接入量越大TCP連接速度越慢。當(dāng)然,也跟所選WEB服務(wù)器程序(如IIS、Apache、Nginx等)有關(guān)。針對(duì)大型網(wǎng)站,可通過(guò)增加配置解決問(wèn)題。針對(duì)采用合租服務(wù)器方式的小型網(wǎng)站,要避免和論壇、下載站等訪問(wèn)量大、消耗帶寬大的網(wǎng)站共享服務(wù)器。
服務(wù)器計(jì)算速度主要取決于網(wǎng)站程序構(gòu)架、數(shù)據(jù)庫(kù)執(zhí)行效率、程序語(yǔ)言效率等(針對(duì)動(dòng)態(tài)內(nèi)容),同時(shí)與并行處理量等有關(guān)。在這一過(guò)程最常見(jiàn)的問(wèn)題就是數(shù)據(jù)庫(kù)執(zhí)行效率低下,因而會(huì)導(dǎo)致網(wǎng)站速度降低甚至出現(xiàn)頁(yè)面訪問(wèn)出錯(cuò)的情況。
HTML下載速度主要取決文件的大小及網(wǎng)絡(luò)帶寬,對(duì)于SEO而言,可對(duì)HTML代碼進(jìn)行優(yōu)化。很多網(wǎng)站HTML代碼都存在冗長(zhǎng)的問(wèn)題,甚至通篇代碼而文本內(nèi)容僅占極小一部分。在去除后仍保留代碼,或者某一“更多”按鈕下隱藏著該功能全部的鏈接(都體現(xiàn)在HTML里,內(nèi)容甚至超過(guò)了頁(yè)面主體的內(nèi)容量!)。針對(duì)HTML優(yōu)化,看源碼是個(gè)好習(xí)慣。