搜索引擎索引方式是什么?
搜索引擎索引方式是什么?搜索引擎的索引方式分為正向索引和倒排索引,這個很多新手站長朋友做SEO都不知道,下面就講解搜索引擎這兩種索引方式。
一、搜索引擎正向索引
正向索引也可以簡稱為索引。經(jīng)過文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨特的、能反映頁面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞,把頁面轉(zhuǎn)換為一個關(guān)鍵詞組成的集合,同時記錄每一個關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)的次數(shù)、還有格式(如出現(xiàn)在標題標簽、黑體、H標簽、錨文字等)、位置。這樣,每一個頁面都可以記錄為一串關(guān)鍵詞集合,其中每個關(guān)鍵詞的詞頰、格式等權(quán)重信息也都記錄在案。
二、搜索引擎倒排索引
正向索引不是直接用于排名的。假設(shè)用戶搜索SEO這個關(guān)鍵詞,如果只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含SEO這個關(guān)鍵詞文件,再進行相關(guān)度的計算。這樣的計算量無法滿足實時返回排名結(jié)果的要求。
因此搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。在倒排索引中關(guān)鍵詞是主鍵,每個關(guān)鍵詞都對應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個關(guān)鍵詞。這樣當用戶搜索某個關(guān)鍵詞時,排序程序在倒排索引中定位到這個關(guān)鍵詞,就可以馬上找出所有包含這個關(guān)鍵詞的文件。