觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
內(nèi)鏈:顧名思意就是在自己網(wǎng)站的內(nèi)容中的相關(guān)文字加入鏈接,并且鏈接到網(wǎng)站內(nèi)部的相關(guān)頁面。合理的網(wǎng)站內(nèi)空鏈接構(gòu)造,能提高搜索引擎的收錄與網(wǎng)站權(quán)重。相對外部鏈接,內(nèi)部鏈接也很重要。
傳統(tǒng)方式
以前我們做文章系統(tǒng)或新聞發(fā)布系統(tǒng)的時候,做文章內(nèi)鏈(標簽)的時候,通常是通過以下方式來實現(xiàn)的:
數(shù)據(jù)庫:article(文章表)字段(id, title, body, adddate, userid),keyword(內(nèi)鏈表)字段(id, name, link)
在發(fā)布文章的時候,循環(huán)內(nèi)鏈表內(nèi)的所有,來替換文章的body。
這樣確實是實現(xiàn)了想要的功能,但是如果我們的內(nèi)鏈表的數(shù)據(jù)達到很大的數(shù)目,比如2W、5W或更多的時候。每發(fā)布和修改一片文章的效率是可想而知的。那么網(wǎng)易的新聞、百度的百科等這樣打大型網(wǎng)站是如何實現(xiàn)的呢?如果按照以上的做法,那系統(tǒng)在幾個月后就直接崩潰了。
分析比較
一篇正常的文章會有多少字(不計HTML代碼)?1W?我想1W的文章已經(jīng)算是很長的了,而且想在如果直接在一個頁面顯示1W的文章相信沒有幾個人有耐心能看完的。為了頁面美觀和用戶體驗,編輯通常都是將內(nèi)容過多、篇幅超長內(nèi)容的文章分段處理(分為幾篇文章,或分章節(jié))。如果我們能事先將可能出現(xiàn)內(nèi)鏈的字從文章中提取出來,再從數(shù)據(jù)庫里檢索,這樣效率是不是就可以得到很大的提高?答案是肯定的。我們就拿1W字的文章來說,假設(shè)文章的所有文字都需要內(nèi)鏈,循環(huán)的次數(shù)是1W次。比上面的例子假設(shè)要強得多吧?
在傳統(tǒng)方式中,不管你要不要,把內(nèi)鏈表的東西全查一邊。而下面這種思路是事先將有可能出現(xiàn)內(nèi)鏈的字詞全部整理出來,再用這些詞分別去檢索內(nèi)鏈表。這樣一比較問題就出來了。
新思路就是:從文章中取出需要內(nèi)鏈的字詞,然后去查詢內(nèi)鏈表。
可行操作
我們暫且把傳統(tǒng)方式稱為被動方式,把新思路的方法稱為主動方式。
主動方式的實現(xiàn)方法如下。
利用中文分詞技術(shù),我們可以對一篇文章進行分詞。然后根據(jù)分詞后的詞表,過濾掉常用的物主代詞、副詞、感嘆詞等。把名詞、品牌、地名、商標等留下,或者根據(jù)自己的詞庫表來分詞。然后把剩余的字詞去檢索內(nèi)鏈表,如果有存在,我們就坐上鏈接,不存在就PASS。
評論(0人參與,0條評論)
發(fā)布評論
最新評論