生命科學領域的專業信息解決方案！

化學結構搜索，化學信息學，生物信息學，實驗室信息學等。
以高科技的生物、化學信息技術實現生命科學領域中專業數據的計算和管理、提高研發能力、增強在科研和成本效率方面的國際競爭力，為生物、化學、醫藥和學術機構提供一流的解決方案和技術咨詢。

子曰：危邦不入，亂邦不居。天下有道則見，無道則隱。

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理

posts - 431, comments - 344, trackbacks - 0

公告

Don't Repeat Yourself
座右銘：you can lose your money, you can spent all of it, and if you work hard you get it all back. But if you waste your time, you're never gonna get it back.
公告：本博客在此聲明部分文章為轉摘，只做資料收集使用。

微信: szhourui
QQ：109450684
Email
：lsi.zhourui@gmail.com

<

2009年8月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

留言簿(15)

隨筆分類(1019)

文章分類(3)

文章檔案(21)

收藏夾

Java
Struts

Link

DHTML 參考手冊
speedtest
UML軟件工程組織
手冊中心

好友博客

Andy Yao
Charlie Zhu
Seal's Blog
叉的博客
姜海英
肖西洋
bio & chem

搜索

積分與排名

積分 - 866524
排名 - 44

閱讀排行榜

當前幾個主要的Lucene中文分詞器的比較【轉載】

轉載地址：http://www.javaeye.com/news/9637

1. 基本介紹：

paoding ：Lucene中文分詞“庖丁解牛” Paoding Analysis
imdict ：imdict智能詞典所采用的智能中文分詞程序
mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法實現的中文分詞器
ik ：采用了特有的“正向迭代最細粒度切分算法“，多子處理器分析模式

2. 開發者及開發活躍度：

paoding ：qieqie.wang， google code 上最后一次代碼提交：2008-06-12，svn 版本號 132
imdict ：XiaoPingGao，進入了 lucene contribute，lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交：2009-07-24，
mmseg4j ：chenlb2008，google code 中 2009-08-03 （昨天），版本號 57，log為：mmseg4j-1.7 創建分支
ik ：linliangyi2005，google code 中 2009-07-31，版本號 41

3. 用戶自定義詞庫：

paoding ：支持不限制個數的用戶自定義詞庫，純文本格式，一行一詞，使用后臺線程檢測詞庫的更新，自動編譯更新過的詞庫到二進制版本，并加載
imdict ：暫時不支持用戶自定義詞庫。但原版 ICTCLAS 支持。支持用戶自定義 stop words
mmseg4j ：自帶sogou詞庫，支持名為 wordsxxx.dic， utf8文本格式的用戶自定義詞庫，一行一詞。不支持自動檢測。 -Dmmseg.dic.path
ik ：支持api級的用戶詞庫加載，和配置級的詞庫文件指定，無 BOM 的 UTF-8 編碼，\r\n 分割。不支持自動檢測。

4. 速度（基于官方介紹，非自己測試）

paoding ：在PIII 1G內存個人機器上，1秒可準確分詞 100萬 漢字
imdict ：483.64 (字節/秒)，259517(漢字/秒)
mmseg4j ： complex 1200kb/s左右, simple 1900kb/s左右
ik ：具有50萬字/秒的高速處理能力

5. 算法和代碼復雜度

paoding ：svn src 目錄一共1.3M，6個properties文件，48個java文件，6895 行。使用不用的 Knife 切不同類型的流，不算很復雜。
imdict ：詞庫 6.7M（這個詞庫是必須的），src 目錄 152k，20個java文件，2399行。使用 ICTCLAS HHMM隱馬爾科夫模型，“利用大量語料庫的訓練來統計漢語詞匯的詞頻和跳轉概率，從而根據這些統計結果對整個漢語句子計算最似然(likelihood)的切分”
mmseg4j ： svn src 目錄一共 132k，23個java文件，2089行。MMSeg 算法，有點復雜。
ik ： svn src 目錄一共6.6M(詞典文件也在里面)，22個java文件，4217行。多子處理器分析，跟paoding類似，歧義分析算法還沒有弄明白。

6. 文檔

paoding ：幾乎無。代碼里有一些注釋，但因為實現比較復雜，讀代碼還是有一些難度的。
imdict ：幾乎無。 ICTCLAS 也沒有詳細的文檔，HHMM隱馬爾科夫模型的數學性太強，不太好理解。
mmseg4j ： MMSeg 算法是英文的，但原理比較簡單。實現也比較清晰。
ik ：有一個pdf使用手冊，里面有使用示例和配置說明。

7. 其它

paoding ：引入隱喻，設計比較合理。search 1.0 版本就用的這個。主要優勢在于原生支持詞庫更新檢測。主要劣勢為作者已經不更新甚至不維護了。
imdict ：進入了 lucene trunk，原版 ictclas 在各種評測中都有不錯的表現，有堅實的理論基礎，不是個人山寨。缺點為暫時不支持用戶詞庫。
mmseg4j ：在complex基礎上實現了最多分詞(max-word)，但是還不成熟，還有很多需要改進的地方。
ik ：針對Lucene全文檢索優化的查詢分析器IKQueryParser

8. 結論

個人覺得，可以在 mmseg4j 和 paoding 中選一個。關于這兩個分詞效果的對比，可以參考：

http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

或者自己再包裝一下，將 paoding 的詞庫更新檢測做一個單獨的模塊實現，然后就可以在所有基于詞庫的分詞算法之間無縫切換了。

ps，對不同的 field 使用不同的分詞器是一個可以考慮的方法。比如 tag 字段，就應該使用一個最簡單的分詞器，按空格分詞就可以了。

posted on 2009-08-09 10:15 周銳閱讀(1257) 評論(0) 編輯收藏所屬分類: Java 、Lucene

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 利用JPG圖片生成高質量的縮略圖在SQLPlus中執行用Java編寫的Oracle存儲過程[轉載] Ubuntu10.04中安裝jdk-6u25 使用Ehcache對頁面緩存 chemtoolkits上線啦當@PathVariable遇上中文和點 OSRA讓圖片上的結構式活起來通過使用Opsin進行IUPAC名稱到結構轉換通過Rsession在java中啟動Rserve chemtoolkits中分子描述符計算（molecular descriptor calculator）完成