觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
幾乎任何有抱負(fù)的通用搜索引擎都有一個(gè)共同的夢想:整合人類所有信息,并讓大家用最便捷的方式各取所需。
對此,百度說:“讓人們最便捷地獲取信息,找到所求”;谷歌說:“整合全球信息,使人人皆可訪問并從中受益”。
這兩者表達(dá)的實(shí)際上是同一個(gè)愿景。
然而,這注定是一項(xiàng)不可能完成的任務(wù)。據(jù)科學(xué)家估測,人類信息大概只有0.2%實(shí)現(xiàn)了web化,并且這個(gè)比例很可能在持續(xù)降低。更甚的是,即便在已經(jīng)web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例為1:500。
萬里長征的第一步即是對付“暗網(wǎng)”。所謂“暗網(wǎng)”,簡言之即為“搜索引擎抓取不到的網(wǎng)頁數(shù)據(jù)”。點(diǎn)亮“暗網(wǎng)”早已納入各大搜索引擎的日程之中,很明顯,這將是一場曠日持久的戰(zhàn)爭。
“暗網(wǎng)”之謎
1994年,學(xué)者JillEllsworth 提出了一個(gè)名為“Invisible Web”(不可見網(wǎng)絡(luò),即暗網(wǎng))的新詞匯,并對其下了定義:這些網(wǎng)站可能已經(jīng)被合理地設(shè)計(jì)出來了,但是它們卻沒有被任何搜索引擎索引,以至于事實(shí)上沒有人能找到它們。
而從信息量來講,與現(xiàn)在能夠索引的數(shù)據(jù)相比,“暗網(wǎng)”更是要龐大得多。根據(jù)Bright Planet公司此前發(fā)布的一個(gè)名為《TheDeep WebSurfacing The Hidden Value》(深層次網(wǎng)絡(luò),隱藏的價(jià)值)白皮書中提供的數(shù)據(jù),“暗網(wǎng)”包含100億個(gè)不重復(fù)的表單,其包含的信息量是“非暗網(wǎng)”的40倍,有效高質(zhì)內(nèi)容總量至少是后者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發(fā)現(xiàn),無數(shù)網(wǎng)站越來越像孤立的系統(tǒng),似乎沒有打算與別的網(wǎng)站共享信息,如此一來,“暗網(wǎng)”已經(jīng)成為互聯(lián)網(wǎng)新信息增長的最大來源,也就是說,互聯(lián)網(wǎng)正在變得“越來越暗”。
當(dāng)然,所謂“暗網(wǎng)”,并不是真正的“不可見”,對于知道如何訪問這些內(nèi)容的人來說,它們無疑是可見的。
迎戰(zhàn)“暗網(wǎng)”
對于龐大的“暗網(wǎng)”,目前搜索業(yè)界通行的策略主要有兩種:其一,構(gòu)建更有針對性的“暗網(wǎng)”爬蟲,以便獲取后臺數(shù)據(jù)庫;其二,與“暗網(wǎng)”網(wǎng)站合作,實(shí)現(xiàn)信息的對接和上浮。
對于第一種策略,它始終貫穿搜索引擎的發(fā)展過程。百度產(chǎn)品部相關(guān)人士對此表示,目前針對搜索引擎的升級和更新中,大部分與“暗網(wǎng)”問題有關(guān),只不過對普通用戶來講,他們很難察覺。
第二種策略似乎更成效。不管是國外的谷歌、雅虎,還是國內(nèi)的百度,都有針對性的計(jì)劃,并且用戶已經(jīng)體驗(yàn)到了它們帶來的變化。
巨頭的較勁
股民劉先生最近在百度搜索時(shí)無意中發(fā)現(xiàn),當(dāng)關(guān)鍵詞為股票代碼時(shí),得到的結(jié)果第一項(xiàng)便是該股票的K線圖,還有當(dāng)日的成交量等信息。而切換到谷歌,得到的結(jié)果如出一轍。他體驗(yàn)到的這一技術(shù),在百度被稱為“阿拉丁”,在谷歌則叫“onebox”。
除了股票,在百度搜索英文單詞、人民幣匯率、天氣預(yù)報(bào)、電視節(jié)目表等等,網(wǎng)民都會有意外收獲。這一點(diǎn),網(wǎng)民的感觸要比在谷歌中深,一個(gè)典型的例子是,在百度和谷歌中分別輸入“天氣”,百度將直接根據(jù)用戶的IP判斷其所處位置,給出當(dāng)?shù)氐奶鞖馇闆r,而谷歌則在第一個(gè)結(jié)果中給出了一個(gè)搜索框,讓用戶進(jìn)一步查詢。
顯然,在用戶體驗(yàn)上,百度占了上風(fēng)。這得益于其上線不久的“搜索開放平臺”,這一平臺是“阿拉丁”計(jì)劃的一部分。其運(yùn)作邏輯是:百度開放API接口,各大網(wǎng)站提交已經(jīng)結(jié)構(gòu)化的數(shù)據(jù),設(shè)定好關(guān)鍵詞和展示方式、位置,獲得百度審核后,當(dāng)網(wǎng)民檢索設(shè)定的關(guān)鍵詞,則自動(dòng)觸發(fā)這一機(jī)制,展現(xiàn)最直接的信息。
對比百度搜索開放平臺和谷歌onebox,兩者的最大區(qū)別就是與網(wǎng)站的互動(dòng),前者更為充分。換句話說,onebox更多是谷歌自己在使勁,而搜索開放平臺則是百度與站長一起在努力。據(jù)百度阿拉丁項(xiàng)目負(fù)責(zé)人透露,平臺上線兩個(gè)月以來,站長提交的資源數(shù)量超過3000個(gè)。
搜索的變革
在對付“暗網(wǎng)”的過程中,搜索引擎正在完成它的蛻變,不論是后臺還是前臺,這才是這場戰(zhàn)役的真正意義?!八阉饕嬖絹碓铰斆髁?,它能看穿我的心思?!?0后網(wǎng)民小龔說。他是一個(gè)球迷,平時(shí)最喜歡看意甲,一天在百度搜索“意甲射手榜”,“居然結(jié)果中直接就是榜單,讓人意外?!?/p>
一位業(yè)內(nèi)人士表示,搜索引擎試圖讓人們以最小的成本獲得最直接的信息,“哪怕是少一次鼠標(biāo)點(diǎn)擊,也是巨大進(jìn)步?!?/p>
有意思的是,隨著百度搜索開放平臺、谷歌onebox、雅虎Search Monkey等計(jì)劃的展開,搜索結(jié)果真正變得“亂糟糟”的——你總能看到網(wǎng)頁鏈接的結(jié)果中間夾雜著圖片、新聞、視頻,或者圖形、表格等信息,這種變革對網(wǎng)民的體驗(yàn)大有裨益。
而評論人士則指出,這些計(jì)劃將搜索引擎從“只讀時(shí)代”帶入了“可寫時(shí)代”?;蛟S未來,對于每一個(gè)網(wǎng)站,每一個(gè)用戶,都有資格改變搜索引擎。
評論(0人參與,0條評論)
發(fā)布評論
最新評論