久久精品国产免费中文,肉色呻吟胯下丝袜高跟视频,日韩欧美国产偷亚洲清高

站內(nèi)公告： 　如果您有其它業(yè)務(wù)聯(lián)系，請發(fā)郵件至yaner@y1web.com郵箱，謝謝您的配合！

增值服務(wù) | 網(wǎng)站備案 |

微信網(wǎng)站

現(xiàn)在的位置：首頁 > 發(fā)布營銷型網(wǎng)站建設(shè) > 新聞資訊 > 分析關(guān)鍵詞的技術(shù)

分析關(guān)鍵詞的技術(shù)

信息來源：優(yōu)度網(wǎng)絡(luò)　發(fā)布日期：2009/5/4　瀏覽數(shù)量：980次

文章導(dǎo)讀：

中文自動(dòng)分詞是網(wǎng)頁分析的基礎(chǔ)。在網(wǎng)頁分析的過程中，中文與英文的處理方式是不同的，這是因?yàn)橹形男畔⑴c英文信息有一個(gè)明顯的差別:英文單詞之間有空格，而中文文本中詞與詞之間沒有分割符。這就要求在對中文網(wǎng)頁進(jìn)行分析之前，先要將網(wǎng)頁中的句子切割成一個(gè)個(gè)的詞的序列，這就是中文分詞。中文自動(dòng)分詞涉及到許多自然語言處理技術(shù)和評(píng)價(jià)標(biāo)準(zhǔn)，在搜索引擎中，我們主要關(guān)心中文自動(dòng)分詞的速度和準(zhǔn)確度。分詞準(zhǔn)確性對搜索引擎來說十分重要，但如果分詞速度太慢，即使準(zhǔn)確性再高，對于搜索引擎來說也是不可用的，因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁，如果分詞耗用的時(shí)間過長，會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此，搜索引擎對分詞的準(zhǔn)確性和速度都提出了很高的要求。

　　目前，中文自動(dòng)分詞比較成熟的技術(shù)是基于分詞詞典的機(jī)械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進(jìn)行匹配。根據(jù)匹配策略的不同，機(jī)械分詞方法又有如下幾種算法:正向最大匹配算法、逆向最大匹配算法、最少分詞算法等。這種方法的優(yōu)點(diǎn)是分詞的速度快，準(zhǔn)確度有一定的保證，但對未登錄詞的處理效果較差。實(shí)驗(yàn)結(jié)果表明:正向最大匹配的錯(cuò)誤率為1/169左右，逆向最大匹配的錯(cuò)誤率為1/245左右。另一種比較常用的中文自動(dòng)分詞方法是基于統(tǒng)計(jì)的分詞方法，這種方法是對語料中的字組頻度進(jìn)行統(tǒng)計(jì)，不需要切分詞典，因此也稱為無詞典分詞方法。但該方法經(jīng)常把不是詞的常用字組當(dāng)成詞，對常用詞的識(shí)別精度較差，時(shí)空開銷也比較大。在搜索引擎領(lǐng)域的實(shí)際應(yīng)用中，一般將機(jī)械分詞方法與統(tǒng)計(jì)分詞方法相結(jié)合，先進(jìn)行串匹配分詞，然后使用統(tǒng)計(jì)方法識(shí)別一些未登錄的新詞，這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢，又利用了統(tǒng)計(jì)分詞中新詞自動(dòng)識(shí)別和自動(dòng)消除分詞歧義的特點(diǎn)。

　　分詞詞典是影響中文自動(dòng)分詞的一個(gè)重要因素，其規(guī)模一般在6萬條詞左右，詞典太大或太小都是不合適的;辭典太小，有些詞切分不出來，辭典太大，切分過程中起義現(xiàn)象將大大增加，同樣影響分詞的精度。因此，分詞詞典中詞條的選擇是非常嚴(yán)格的。對于不斷出現(xiàn)新詞的網(wǎng)絡(luò)領(lǐng)域，僅僅使用6萬條詞左右的分詞詞典是不夠的，但隨意向分詞詞典中加入新詞將導(dǎo)致分詞精度下降，一般的解決方法是使用輔助詞典，其規(guī)模在50萬詞條左右。另外，中文自動(dòng)分詞的難點(diǎn)在于分詞歧義的處理和未登錄詞的識(shí)別，如何處理這兩個(gè)問題一直是該領(lǐng)域研究的熱點(diǎn)。

　　1、歧義處理

　　歧義是指可能有兩種或者更多的切分方法。例如:“表面的”這個(gè)詞組，因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~，那么這個(gè)短語就可以分成“表面+的”和“表+面的”。這種稱為交叉歧義。像這種交叉歧義十分常見，“化妝和服裝”可以分成“化妝+和+服裝”或者“化妝+和服+裝”。由于沒有人的知識(shí)去理解，計(jì)算機(jī)很難知道到底哪個(gè)方案正確。

　　交叉歧義相對組合歧義來說是還算比較容易處理，組合歧義就必須根據(jù)整個(gè)句子來判斷了。

　　例如，在句子“這個(gè)門把手壞了”中，“把手”是個(gè)詞，但在句子“請把手拿開”中，“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中，“中將”是個(gè)詞，但在句子“產(chǎn)量三年中將增長兩倍”中，“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?

　　即使交叉歧義和組合歧義計(jì)算機(jī)都能解決的話，在歧義中還有一個(gè)難題，是真歧義。真歧義意思是給出一句話，由人去判斷也不知道哪個(gè)應(yīng)該是詞、哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣完了”，可以切分成“乒乓+球拍+賣+完+了”、也可切分成“乒乓球+拍賣+完+了”，如果沒有上下文其他的句子，恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。

　　對歧義現(xiàn)象的處理方法一般采用類似于動(dòng)態(tài)規(guī)劃的算法將歧義問題的求解轉(zhuǎn)化為一個(gè)優(yōu)化問題的求解。在求解過程中，一般使用詞頻或概率等輔助信息求得一個(gè)最大可能的分詞結(jié)果，這個(gè)結(jié)果在某種意義下是最佳的。

　　2、未登錄詞處理

　　未登錄詞就是分詞詞典中沒有的詞，也稱為新詞。最典型的是人名、地名、專業(yè)術(shù)語等。例如，人可以很容易理解句子“王軍虎去廣州了”中，“王軍虎”是個(gè)詞，因?yàn)槭且粋€(gè)人的名字，但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“王軍虎”作為一個(gè)詞收錄到字典中去，全世界有那么多名字，而且每時(shí)每刻都有新增的人名，收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成，還是會(huì)存在問題，例如:在句子“王軍虎頭虎腦”中的，“王軍虎”還能不能算詞？

　　未登錄詞中除了人名以外，還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題，而且這些又正好是人們經(jīng)常使用的詞，因此對于搜索引擎來說，分詞系統(tǒng)中的新詞識(shí)別十分重要。目前，對未登錄詞的處理一般采用統(tǒng)計(jì)的方法，首先從語料中統(tǒng)計(jì)出出現(xiàn)頻率較高的字組，然后按照某種規(guī)則把它們作為新詞添加到輔助詞典中。

　　目前，中文自動(dòng)分詞技術(shù)在搜索引擎中已經(jīng)得到廣泛應(yīng)用，分詞準(zhǔn)確度已經(jīng)達(dá)到96%以上，但是在對大規(guī)模網(wǎng)頁進(jìn)行分析處理的時(shí)候，現(xiàn)有的中文自動(dòng)分詞技術(shù)還存在許多不足，例如上面提到的歧義問題和未登錄詞的處理問題等。因此，國內(nèi)外的科研院校，如北大、清華、中科院、北京語言學(xué)院、東北大學(xué)、IBM研究院、微軟中國研究院等都一直關(guān)注并研究中文自動(dòng)分詞技術(shù)，這主要是因?yàn)榫W(wǎng)絡(luò)上的中文信息越來越多，對網(wǎng)絡(luò)上的中文信息的處理必將成為一個(gè)巨大的產(chǎn)業(yè)和廣闊的市場，存在無限的商機(jī)。但是，中文自動(dòng)分詞技術(shù)要想更好地服務(wù)于網(wǎng)絡(luò)中文信息的處理并形成產(chǎn)品，還要在基礎(chǔ)研究方面和系統(tǒng)的集成方面做許多工作。