關于 小叮咚中文分詞 .net版本發布的變化
關于 小叮咚中文分詞 .net版本發布的變化
現在幾乎每天都有朋友給我寫信,要求交流小叮咚中文分詞的實現。我現在實現的有java和C#兩個版本。同樣的算法邏輯,用 java 和 C#寫兩邊可不是有趣的事情 。于是自然而然想起了 關于lucene發展和多語言實現的方向 中采用的方法,于是決定以后主要更新java版本的中文分詞算法,而.net版本的中文分詞則在java class基礎上轉化過來。
很早的時候我的一篇blog介紹過:基于.NET的Java虛擬機IKVM介紹 。于是今天就嘗試了一把,整個過程還算順利。下面是我的轉換過程:
X:\ikvmbin-0.14.0.1\ikvm\bin>ikvmc -target:library
X:\XXXX\chinese_sentence_splitter.jar
Note: output file is "chinese_sentence_splitter.dll"
Note: automatically adding reference to "e:\programming\java&.net\ikvmbin-0.14.0.1\ikvm\bin\ikvm.gnu.classpath.dll"
通過上面的命令可以把 java jar 文件轉換成 同名的 .net dll。
在java中測試的結果如下:
但在.net中測試的結果卻不正確:

這很顯然是IKVM.NET在轉換過程中出現了問題。
由于第一次使用IKVM.NET,因此這個問題還需要在以后有時間解決一下。也希望有相關經驗的朋友多多指導.
相關連接:
多么樂小叮咚中文分詞