觸屏版
全國(guó)服務(wù)熱線:0571-87205688
登錄
注冊(cè)
客戶中心
關(guān)注云客
為什么要進(jìn)行中文分詞:詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,英文單詞之間是以空格作為自然分界符的,而漢語(yǔ)是以字為基本的書(shū)寫(xiě)單位,詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,因此,中文詞語(yǔ)分析是中文信息處理的基礎(chǔ)與關(guān)鍵。
Lucene中對(duì)中文的處理是基于自動(dòng)切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結(jié)合)、最少切分、全切分等等。
中文分詞技術(shù)的分類(lèi):
我們討論的分詞算法可分為三大類(lèi):基于字典、詞庫(kù)匹配的分詞方法;基于詞頻度統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法。
第一類(lèi)方法應(yīng)用詞典匹配、漢語(yǔ)詞法或其它漢語(yǔ)語(yǔ)言知識(shí)進(jìn)行分詞,如:最大匹配法、最小分詞方法等。這類(lèi)方法簡(jiǎn)單、分詞效率較高,但漢語(yǔ)語(yǔ)言現(xiàn)象復(fù)雜豐富,詞典的完備性、規(guī)則的一致性等問(wèn)題使其難以適應(yīng)開(kāi)放的大規(guī)模文本的分詞處理。第二類(lèi)基于統(tǒng)計(jì)的分詞方法則基于字和詞的統(tǒng)計(jì)信息,如把相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞,由于這些信息是通過(guò)調(diào)查真實(shí)語(yǔ)料而取得的,因而基于統(tǒng)計(jì)的分詞方法具有較好的實(shí)用性。
spider抓取過(guò)程中涉及的網(wǎng)絡(luò)協(xié)議
網(wǎng)站優(yōu)化之網(wǎng)站欄目設(shè)置需注意事項(xiàng)
Wordpress首頁(yè)不更新怎么辦?
社會(huì)化媒體賺取鏈接的四種途徑
SEO福音!百度推移動(dòng)網(wǎng)頁(yè)加速器 旨在移動(dòng)網(wǎng)站用戶體驗(yàn)提升
文案寫(xiě)作的思考方向
SEO干貨:不以營(yíng)銷(xiāo)為目的的SEO都是耍流氓!
網(wǎng)站流量來(lái)了可是沒(méi)有利潤(rùn)怎么辦
授權(quán)移動(dòng)適配&轉(zhuǎn)碼協(xié)議
網(wǎng)站換域名,哪些方面會(huì)受影響?
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論