觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
電腦、智能手機、智能電視等產(chǎn)品不斷普及與發(fā)展,越來越多的人開始接觸互聯(lián)網(wǎng),中國網(wǎng)民的數(shù)量飛速增長。與此同時,互聯(lián)網(wǎng)上的各種信息如博客、購物信息及電子圖書等也呈現(xiàn)了指數(shù)型的增長。雖然互聯(lián)網(wǎng)上的信息資源種類多、信息全,但是信息組織相對松散,互聯(lián)網(wǎng)上的信息都散落在各個網(wǎng)頁當(dāng)中,并且更新速度異常迅速?;ヂ?lián)網(wǎng)用戶想要在這海量并且組織無序的信息當(dāng)中找到對自己有用或者感興趣的信息越來越困難。在這樣的背景下搜索引擎應(yīng)運而生。搜索引擎提供商利用各種爬取技術(shù)從互聯(lián)網(wǎng)上爬取大量的網(wǎng)頁,并對這些網(wǎng)頁進行解析、整理、挖掘和組織,形成一個龐大的信息檢索系統(tǒng),為互聯(lián)網(wǎng)用戶提供基于關(guān)鍵字的檢索服務(wù),使用戶能夠輕易地從信息的海洋當(dāng)中獲得有用的信息。所以搜索引擎己經(jīng)成為互聯(lián)網(wǎng)用戶獲取信息的入口及上網(wǎng)不可以或缺的網(wǎng)絡(luò)應(yīng)用。
目前搜索引擎所使用的技術(shù)主要包含:互聯(lián)網(wǎng)爬蟲、網(wǎng)頁頁面解析、倒排索引技術(shù)、檢索系統(tǒng)、自然語言處理和用戶興趣挖掘等。由于互聯(lián)網(wǎng)上的信息種類多、覆蓋面全、組織復(fù)雜,所以搜索引擎單純依靠用戶提交的搜索詞從這龐大的數(shù)據(jù)庫當(dāng)中抽取用戶感興趣的信息顯然是一件非常具有挑戰(zhàn)性的任務(wù)。只有搜索引擎充分理解用戶的興趣、搜索意圖等才能返回給用戶真正需要的信息。其中搜索詞是指用戶使用搜索引擎時提交給搜索引擎的搜索關(guān)鍵字,是用戶與搜索引擎交互過程當(dāng)中最為重要的信息載體,能夠直接或者間接地反應(yīng)用戶的搜索意圖、興趣和需求。所以利用自然語言處理方法、機器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)對用戶提交的搜索詞進行分析和挖掘從而得到用戶的搜索意圖或興趣等搜索引擎最常用的挖掘方法之一。
評論(0人參與,0條評論)
發(fā)布評論
最新評論