觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
對于一個SEO新手來說,你不需要考慮太多的東西,明白了偽原創(chuàng)也是制勝的法寶的真諦,了解獲取外鏈資源的方法,足以讓你受益匪淺。而隨著SEO工作的不斷深入,你也就會慢慢的發(fā)現(xiàn)充分利用好網(wǎng)絡(luò)給予你的一針一線的重要性。了解搜索引擎的工作原理,其意義自然不在話下。
搜索引擎的工作原理,在我們的培訓(xùn)中也經(jīng)常會被提及,簡單來說,主要是三個步驟,爬行和抓取,預(yù)處理(因為索引是預(yù)處理中主要組成部分,故也有人將這一步稱為索引),排名。排名這一塊設(shè)計算法問題,暫且不去深究,這里主要說說爬行和抓取以及預(yù)處理兩個方面。
一、爬行和抓取
通過蜘蛛程序,各搜索引擎在訪問網(wǎng)站時都會先去查看網(wǎng)站根目錄下的robots.txt文件,從而獲取網(wǎng)站中被禁止爬取網(wǎng)址的信息。對于被禁止抓取部分的網(wǎng)址,不會被搜索引擎收錄,但是需要注意的一個現(xiàn)象是,百度目前會對部分將百度蜘蛛屏幕的網(wǎng)站以下列類似淘寶網(wǎng)的形式顯示,據(jù)個人不完全觀察發(fā)現(xiàn),這種現(xiàn)象正逐漸變的普遍起來(特別強(qiáng)調(diào)一點,這不是說百度不遵守robots協(xié)議了,打開此類收錄網(wǎng)址的快照,你會發(fā)現(xiàn)快照為空)。
為了獲取更多的信息,蜘蛛會通過跟蹤頁面上的鏈接來抓取頁面。從理論上來說,蜘蛛可以通過鏈接抓取整個互聯(lián)網(wǎng)上的信息,但是在實際操作中,考慮到頁面的復(fù)雜程度,蜘蛛會采取深度抓取和廣度抓取兩種方式來進(jìn)行頁面抓取的工作。為了避免重復(fù)爬行和抓取,搜索引擎會建立包括已發(fā)現(xiàn)但未被抓取以及已被抓取的兩個網(wǎng)頁地址庫進(jìn)行參考對比,而被抓取的頁面會進(jìn)入原始的頁面數(shù)據(jù)庫。到此為止,原始數(shù)據(jù)庫的建立就告一段落了。
二、預(yù)處理(索引)階段
原始數(shù)據(jù)庫建立完畢,搜索引擎會對網(wǎng)頁進(jìn)行文字提取的處理,當(dāng)然,除了頁面上顯示的文字外,搜索引擎還會對諸如meta標(biāo)簽、flash替代文件,錨文本、alt標(biāo)簽等部分的文字進(jìn)行提取。提取文字完畢,便會進(jìn)入下一個階段:分詞。
不管百度算法多么垃圾,但是不可否認(rèn)的是,百度的中文分詞技術(shù)在搜索引擎中的霸主地位無人可以撼動。對于頁面上抓取到的文字,搜素引擎會進(jìn)行分詞處理,比如將“瘦小腿方法”分為“瘦小腿”、“方法”兩個部分。而分詞的方法,一般會有詞典與統(tǒng)計兩種手段。詞典嘛,不需要太多解釋;至于統(tǒng)計,是指通過分析大量文本從而計算字與字之間相鄰出現(xiàn)的概率,概率越大,越容易形成一個詞。百度目前是將兩種方法結(jié)合使用,來達(dá)到最佳的效果。
或許說到這里,大家會問,針對一些中文中常出現(xiàn)的詞,比如“的”、“了”、“呀”之類沒有實際意義但是使用頻率又很高的詞,會怎么樣處理呢?答案是剔除,從而提高搜索引擎的計算效率。
在瀏覽網(wǎng)頁的信息時,我們會發(fā)現(xiàn),有一些板塊,在網(wǎng)站是重復(fù)出現(xiàn)的,比如“導(dǎo)航”、“廣告”等,這部分東西,對于所屬頁面的顯示內(nèi)容來說,并沒有實際的意義。自然的,搜索引擎也會將此部分內(nèi)容進(jìn)行處理,從而篩選出所收錄頁面闡述表達(dá)內(nèi)容的最終文字部分。當(dāng)然,文字部分篩選出來之后,搜索引擎還會對各個網(wǎng)頁上所顯示的最終文字內(nèi)容進(jìn)行對比,從而刪除掉重復(fù)的內(nèi)容進(jìn)行顯示。圖文并茂,是提升用戶體驗的一種有效方式。在日常的SEO工作中,我們往往會重視文字而忽視圖片的優(yōu)化,或者只是在圖片中添加一個alt標(biāo)簽。其實,圖片優(yōu)化這一塊,可以做的還有很多,下面簡單的說五點。
給你的圖片起個好的名稱
很多網(wǎng)站的圖片名稱,都會用1.jpg、2.jgp等字眼來表述。其實這樣的圖片名稱對于搜索引擎和用戶來說毫無意義。在谷歌的網(wǎng)站質(zhì)量指南中,明確指出如果網(wǎng)站中沒有任何描述圖片的信息,那么在搜索返回的結(jié)果中會考慮使用圖片的名稱。如果你在描述手機(jī)的網(wǎng)頁中出現(xiàn)了一張圖片,那么就建議你給圖片命名為phone.jpg。phone與手機(jī)緊密相連,會凸顯您的網(wǎng)頁主題。
給你的圖片加上長和寬
關(guān)于這一點,Bruce在培訓(xùn)中給我們做出了解釋,這里再重復(fù)一下。加上長和寬,瀏覽器會按照設(shè)置給圖片留出位置,同時加載其它網(wǎng)頁組件。換句話說,就是不用在加載圖片完畢之后加載其它組件,而是同時進(jìn)行。這樣可以大大加快網(wǎng)頁的加載速度,提升用戶體驗。
給你的圖片目錄做好分類
大家都知道,搜索引擎是看不懂圖片的。如果能將描述手機(jī)的圖片放在文件目錄phone中,將描述電腦的圖片放在文件目錄computer中。會十分有利于搜索引擎對圖片主題的判斷。
給你的圖片進(jìn)行保質(zhì)的瘦身
為提高網(wǎng)頁的加載速度,就難免涉及到壓縮圖片,給圖片進(jìn)行瘦身。當(dāng)然,這點需要在保證圖片質(zhì)量的前提下進(jìn)行,即對圖片進(jìn)行無損壓縮。
CSS精靈,給你的圖片做個合并
CSS精靈,即CSS sprites技術(shù)。其主要作用是將一些小圖片合并在一張圖中,利用CSS控制位置技術(shù)來分別調(diào)用合并后圖片的不同部分。其目的是減少對HTTP的請求次數(shù),提高網(wǎng)頁的加載速度。
好了,經(jīng)過上述的幾個步驟,就可以建立索引庫了,此時的索引會分為正向索引和倒排索引兩個階段。正向索引,可以簡單的理解為將收錄頁面的網(wǎng)址為主鍵,以該頁面上進(jìn)行分詞處理之后的結(jié)果為內(nèi)容建立起的數(shù)據(jù)庫,如下圖所示。
正向索引結(jié)束,我們可以發(fā)現(xiàn)還不能用于排名,這時就需要倒排索引,即以關(guān)鍵詞為主鍵,以包含該關(guān)鍵詞的網(wǎng)址及對應(yīng)內(nèi)容為內(nèi)容建立索引數(shù)據(jù)庫,如下圖所示。
至此,搜索引擎再通過對鏈接分析以及特殊文件的處理,預(yù)處理(索引)階段也就落下帷幕了。從中我們也可以看出,深入了解了搜索引擎原理,對于日常的SEO工作理解以及啟發(fā)作用還是十分明顯的。比如,你在偽原創(chuàng)的過程中,只是草草的給一些文章加一些簡單的助詞或者對小部分的文字內(nèi)容進(jìn)行簡單的修改,不好意思,你的文章在預(yù)處理甚至是爬行和抓取階段就被pass了。
評論(0人參與,0條評論)
發(fā)布評論
最新評論