LALA  
          日歷
          <2009年6月>
          31123456
          78910111213
          14151617181920
          21222324252627
          2829301234
          567891011

          導(dǎo)航

          留言簿(1)

          隨筆分類(31)

          文章分類(4)

          收藏夾(21)

          搜索

          •  

          積分與排名

          • 積分 - 29910
          • 排名 - 1389

          最新隨筆

          最新評論

          閱讀排行榜

           
          常用中文分詞

          1. 庖丁解牛分詞包,適用于與Lucene整合。http://www.oschina.net/p/paoding
              庖丁中文分詞庫是一個(gè)使用Java開發(fā)的,可結(jié)合到Lucene應(yīng)用中的,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件。
              Paoding填補(bǔ)了國內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。
              Paoding's Knives 中文分詞具有極 高效率 和 高擴(kuò)展性 。引入隱喻,采用完全的面向?qū)ο笤O(shè)計(jì),構(gòu)思先進(jìn)。
              高效率:在PIII 1G內(nèi)存?zhèn)€人機(jī)器上,1秒 可準(zhǔn)確分詞 100萬 漢字。
              采用基于 不限制個(gè)數(shù) 的詞典文件對文章進(jìn)行有效切分,使能夠?qū)υ~匯分類定義。
              能夠?qū)ξ粗脑~匯進(jìn)行合理解析

          2. LingPipe,開源自然語言處理的Java開源工具包。http:/alias-i.com/lingpipe/
              功能非常強(qiáng)大,最重要的是文檔超級詳細(xì),每個(gè)模型甚至連參考論文都列出來了,不僅使用方便,也非常適合模型的學(xué)習(xí)。
              主題分類(Top Classification)、命名實(shí)體識(shí)別(Named Entity Recognition)、詞性標(biāo)注(Part-of Speech Tagging)、句題檢測(Sentence Detection)、查詢拼寫檢查(Query Spell Checking)、興趣短語檢測(Interseting Phrase Detection)、聚類(Clustering)、字符語言建模(Character Language Modeling)、醫(yī)學(xué)文獻(xiàn)下載/解析/索引(MEDLINE Download, Parsing and Indexing)、數(shù)據(jù)庫文本挖掘(Database Text Mining)、中文分詞(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、語言辨別(Language Identification)等

          3. JE分詞包
          4. LibMMSeg http://www.oschina.net/p/libmmseg
              采用C++開發(fā),同時(shí)支持Linux平臺(tái)和Windows平臺(tái),切分速度大約在300K/s(PM-1.2G),截至當(dāng)前版本(0.7.1)。
              LibMMSeg沒有為速度仔細(xì)優(yōu)化過,進(jìn)一步的提升切分速度應(yīng)仍有空間。
          5. IKAnalyzer http://www.oschina.net/p/ikanalyzer
              IKAnalyzer基于lucene2.0版本API開發(fā),實(shí)現(xiàn)了以詞典分詞為基礎(chǔ)的正反向全切分算法,是LuceneAnalyzer接口的實(shí)現(xiàn)。
              該算法適合與互聯(lián)網(wǎng)用戶的搜索習(xí)慣和企業(yè)知識(shí)庫檢索,用戶可以用句子中涵蓋的中文詞匯搜索,如用"人民"搜索含"人民幣"的文章,這是大部分用戶的搜索思維;
              不適合用于知識(shí)挖掘和網(wǎng)絡(luò)爬蟲技術(shù),全切分法容易造成知識(shí)歧義,因?yàn)樵谡Z義學(xué)上"人民"和"人民幣"是完全搭不上關(guān)系的。
          6. PHPCWS http://www.oschina.net/p/phpcws
              PHPCWS 是一款開源的PHP中文分詞擴(kuò)展,目前僅支持Linux/Unix系統(tǒng)。

              PHPCWS 先使用“ICTCLAS 3.0 共享版中文分詞算法”的API進(jìn)行初次分詞處理,再使用自行編寫的“逆向最大匹配算法”對分詞和進(jìn)行詞語合并處理,并增加標(biāo)點(diǎn)符號(hào)過濾功能,得出分詞結(jié)果。

              ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中國科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上,基于多層隱馬模型研制出的漢語詞法分析系統(tǒng),主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;新詞識(shí)別;同時(shí)支持用戶詞典。ICTCLAS經(jīng)過五年精心打造,內(nèi)核升級6次,目前已經(jīng)升級到了ICTCLAS3.0,分詞精度 98.45%,各種詞典數(shù)據(jù)壓縮后不到3M。ICTCLAS在國內(nèi)973專家組組織的評測中活動(dòng)獲得了第一名,在第一屆國際中文處理研究機(jī)構(gòu)SigHan 組織的評測中都獲得了多項(xiàng)第一名,是當(dāng)前世界上最好的漢語詞法分析器。

              ICTCLAS 3.0 商業(yè)版是收費(fèi)的,而免費(fèi)提供的 ICTCLAS 3.0 共享版不開源,詞庫是根據(jù)人民日報(bào)一個(gè)月的語料得出的,很多詞語不存在。所以本人對ICTCLAS分詞后的結(jié)果,再采用逆向最大匹配算法,根據(jù)自己補(bǔ)充的一個(gè)9萬條詞語的自定義詞庫(與ICTCLAS詞庫中的詞語不重復(fù)),對ICTCLAS分詞結(jié)果進(jìn)行合并處理,輸出最終分詞結(jié)果。

              由于 ICTCLAS 3.0 共享版只支持GBK編碼,因此,如果是UTF-8編碼的字符串,可以先用PHP的iconv函數(shù)轉(zhuǎn)換成GBK編碼,再用phpcws_split函數(shù)進(jìn)行分詞處理,最后轉(zhuǎn)換回UTF-8編碼。


          posted on 2009-06-04 21:01 Dest 閱讀(2059) 評論(0)  編輯  收藏 所屬分類: Java
           
          Copyright © Dest Powered by: 博客園 模板提供:滬江博客
          主站蜘蛛池模板: 阳新县| 黄浦区| 疏勒县| 东源县| 保康县| 温泉县| 开平市| 泽库县| 正镶白旗| 比如县| 泾阳县| 涞源县| 赤城县| 沂水县| 大新县| 社旗县| 贵南县| 玉田县| 西安市| 凤凰县| 洞头县| 霍州市| 当涂县| 东乌珠穆沁旗| 尤溪县| 吉林省| 华宁县| 平南县| 昌乐县| 南乐县| 保德县| 海南省| 南宫市| 澄迈县| 科技| 理塘县| 金塔县| 葵青区| 来宾市| 白银市| 黄骅市|