觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
搜索引擎按其工作方式主要可分為三種:
分別是全文搜索引擎(Full Text Search Engine)
目錄索引類搜索引擎(Search Index/Directory)
元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。
從搜索結(jié)果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。
在搜索引擎分類部分提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天), 蜘蛛搜索引擎搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫,目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。
當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、鏈接質(zhì)量——計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。這種引擎的特點是搜全率比較高。
■ 目錄索引
雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。(更簡單說就是網(wǎng)址導(dǎo)航網(wǎng)站)
用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬于自動網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。 目錄索引其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜索引擎時,我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄(Directory)。
最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時對其進行調(diào)整,當(dāng)然事先是不會和你商量的。
目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時,可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍(注)。在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如中國的搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁搜索,如Yahoo。這種引擎的特點是找的準(zhǔn)確率比較高。
■ 元搜索引擎 (META Search Engine)
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
垂直搜索引擎
垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎,垂直搜索專注于特定的搜索領(lǐng)域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),如國內(nèi)的酷訊,去哪兒,攜程等。在其特定的搜索領(lǐng)域有更好的用戶體驗。相比通用搜索動輒數(shù)千臺檢索服務(wù)器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。
集合式搜索引擎
集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調(diào)用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
門戶搜索引擎
門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。
免費鏈接列表
免費鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。
優(yōu)秀的搜索引擎需要復(fù)雜的架構(gòu)和算法,以 此來支撐對海量數(shù)據(jù)的獲取、存儲,以及對用戶查詢的快速而準(zhǔn)確地響應(yīng)。
從架構(gòu)層面,搜索引擎需要能夠?qū)σ园賰|計的海量網(wǎng)頁進行獲取、存儲、處理的能力,同 時要保證搜索結(jié)果的質(zhì)量。
如何獲取、存儲并計算如此海量的數(shù)據(jù)?
如何快速響應(yīng)用戶的査 詢?
如何使得搜索結(jié)果能夠滿足用戶的信息需求?
這些都是搜索引擎面對的技術(shù)挑戰(zhàn)。 下圖是一個通用的搜索引笨架構(gòu)示意圖:
搜索引擎架構(gòu)
搜索引擎由很多技術(shù)模塊構(gòu)成,各自負(fù)責(zé)整體 功能的一部分,相互紀(jì)合形成了完善的整體架構(gòu)。
搜索引擎的信息源來自于互聯(lián)網(wǎng)網(wǎng)頁,通過網(wǎng)絡(luò)爬蟲將互聯(lián)網(wǎng)的信息獲取到本地. 因 為互聯(lián)網(wǎng)頁面中有相當(dāng)大比例的內(nèi)容是完全相同或者近似重復(fù)的,"網(wǎng)頁去重"模塊會對此做 出檢測,并去除重復(fù)內(nèi)容。
建立索引:
抓取到網(wǎng)頁后,搜索引擎會對網(wǎng)頁進行解析,抽取出網(wǎng)頁主體內(nèi)容和相關(guān)信息,(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等)。根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁建立索引。為了加快響應(yīng)用戶査詢的速度,網(wǎng)頁內(nèi)容通過"倒排索引"這種高效查詢數(shù)據(jù)
結(jié)構(gòu)來保存,而網(wǎng)頁之間的鏈接關(guān)系也會予以保存。之所以要保存鏈接關(guān)系,是因為這種關(guān)系 在網(wǎng)F相關(guān)性排序階段是可利用的,通過"鏈接分析"可以判斷頁面的相對重要性,對于為用 戶提供準(zhǔn)確的搜索結(jié)果幫助很大。
由于網(wǎng)頁數(shù)量太多,搜索引擎不僅需要保存網(wǎng)頁原始信息,還要存儲一些中間的處理結(jié)果 使用單臺或者少量的機器明顯是不現(xiàn)實的。Google等商業(yè)搜索引擎為此開發(fā)了一整套云存儲與 云計算平臺,使用數(shù)以萬計的普通廉價PC搭建了海量信息的可靠存儲與計算架構(gòu),以此作為搜索 引擎及其相關(guān)應(yīng)用的基礎(chǔ)支撐。優(yōu)秀的云存儲與云計算平臺已經(jīng)成為大型商業(yè)搜索引擎的核心
競爭力。 上面所述是搜索引擎如何獲取并存儲海量的網(wǎng)頁相關(guān)信息,這些功能因為不需要實時計 算,所以可以被看做是搜索弓I擎的后臺計算系統(tǒng)。
查詢詞分析
搜索引擎的最重要目的是為用戶提供準(zhǔn)確全 面的搜索結(jié)果,如何響應(yīng)用戶査詢并實時地提供準(zhǔn)確結(jié)果構(gòu)成了搜索引擎前臺計算系統(tǒng)。 當(dāng)搜索引擎接收到用戶的査詢詞后,首先需要對查詢詞進行分析,希望能夠結(jié)合查詢詞和 用戶信息來正確推導(dǎo)用戶的真正搜索意圖。在此之后,首先在緩存中査找,搜索引擎的緩存系
統(tǒng)存儲了不同的查詢意圖對應(yīng)的搜索結(jié)果,如果能夠在緩存系統(tǒng)找到滿足用戶需求的信息,則 可以直接將搜索結(jié)果返回給用戶,這樣既省掉了重復(fù)計算對資源的消耗,又加快了響應(yīng)速度;
如果保存在緩存的信息無法滿足用戶需求,搜索引擎需要調(diào)用"網(wǎng)頁排序"??旃δ?,根據(jù)用 戶的査詢實時計算哪些網(wǎng)頁是滿足用戶信息需求的,并排序輸出作為搜索結(jié)果。而網(wǎng)頁排序最 重要的兩個參考因素中,一個是內(nèi)容相似性因素,即哪些網(wǎng)頁是和用戶查詢密切相關(guān)的;另外 一個是網(wǎng)頁重要性因素,即哪些網(wǎng)頁是質(zhì)量較好或者相對重要的,這點往往可以從鏈接分析的 結(jié)果獲得。結(jié)合以上兩個考慮因素,就可以對網(wǎng)頁進行排序,作為用戶查詢的搜索結(jié)果。
評論(2人參與,2條評論)
發(fā)布評論
最新評論
確定回復(fù)
云客119519
長期有單需做,麻煩加我扣2025551354 2017-05-27 參與編號 #40 回復(fù)確定回復(fù)