觸屏版
全國(guó)服務(wù)熱線(xiàn):0571-87205688
正排索引也稱(chēng)為“前向索引”。它是創(chuàng)建倒排索引的基礎(chǔ),具有以下字段。
(1)Localld字段(表中簡(jiǎn)稱(chēng)“Lid”):表示一個(gè)文檔的局部編號(hào)。
(2)Wordld字段:表示文檔分詞后的編號(hào),也可稱(chēng)為“索引詞編號(hào)”。
(3)NHits字段:表示某個(gè)索引詞在文檔中出現(xiàn)的次數(shù)。
(4)HitList變長(zhǎng)字段:表示某個(gè)索引詞在文檔中出現(xiàn)的位置,即相對(duì)于正文的偏移量。
由于一篇文章中的某些詞可能出現(xiàn)多次,而且位置不同,而全文檢索的本質(zhì)要求是把這些位置標(biāo)識(shí)出來(lái),因此HitList中的每個(gè)命中都表示索引詞在文檔的某個(gè)位置中出現(xiàn)了一次,這個(gè)序列為單調(diào)遞增序列?;谟纬叹幋a的方法,變升序序列為差分序列,采用前文提到的Variable Byte Coding方法編碼可以大大壓縮正排索引的HitList字段。
事實(shí)上,文檔編號(hào)在不同的計(jì)算過(guò)程里,分別稱(chēng)為局部編號(hào)和全局編號(hào),它們?cè)诰幪?hào)長(zhǎng)度上稍有不同,為了便于理解,不區(qū)別這些區(qū)別,認(rèn)為L(zhǎng)ocalld和Docld完全一致,都表示一個(gè)文檔的唯一編號(hào)。在正排索引中Localld采用升序序列編號(hào)(假定編號(hào)采用自增1的方式遞增),這為下面的計(jì)算創(chuàng)造條件。進(jìn)行倒排索引的轉(zhuǎn)化時(shí),由于正排索引中Lid天然的有序性,因此在正排索引轉(zhuǎn)化為倒排索引的創(chuàng)建過(guò)程中,自然可以保證倒排索引中每個(gè)詞匯對(duì)應(yīng)的文檔編號(hào)也是有序的.
本質(zhì)上說(shuō),正排索引以文檔編號(hào)為視角看待索引詞,也就是通過(guò)文檔編號(hào)去找索引詞。任給一個(gè)文檔編號(hào),能夠知道它包含了哪些索引詞、這些索引詞分別出現(xiàn)的次數(shù),以及索引詞出現(xiàn)的位置。然而全文索引是通過(guò)關(guān)鍵詞來(lái)檢索,而不是通過(guò)文檔編號(hào)來(lái)檢索,因此正排索引不能滿(mǎn)足全文檢索的要求。
雖然正排索引不能滿(mǎn)足全文檢索的需要,但是正排索引為創(chuàng)建倒排索引創(chuàng)造了有利條件,是計(jì)算倒排索引的不可缺少的一環(huán)。
淺談白帽站群的鏈輪策略技巧(一)
做SEO需要具備哪些技能?
如何用內(nèi)容營(yíng)銷(xiāo)來(lái)驅(qū)動(dòng)長(zhǎng)尾詞SEO優(yōu)化?
3大核心,8大步驟操作兵法,讓您徹底讀懂SEO
SEO心法:從浮躁到胸有成竹,我的SEO經(jīng)驗(yàn)
搜索引擎無(wú)內(nèi)容可收錄 SEO還有必要嗎?
掌握SEO的6大技巧!
提高網(wǎng)站SEO原創(chuàng)文章寫(xiě)作效率 關(guān)鍵詞庫(kù)你做了嗎
網(wǎng)站SEO優(yōu)化文章枯燥 如何提高可讀性呢
新手做 SEO 如何進(jìn)行關(guān)鍵詞分析與優(yōu)化操作?
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論