lucene + hadoop 分布式并行計算搜索框架

隨筆-23 評論-58 文章-0 trackbacks-0

全切分分詞程序,能實現中英文數字混合分詞

全切分分詞程序。中華人民共和國切分成 {中華人民共和國|中華|華人|人民|共和國}。

能實現中英文數字混合分詞。比如能分出這樣的詞：bb霜、3室、樂phone、touch4、mp3、T恤。

public class FMW extends M

{

public static final HashMap<Character,TreeNode> dic = Dictionary.getFmmdic();

/**

* @return 返回可能匹配詞的長度, 沒有找到返回 0.

*/

public ArrayList<Integer> maxMatch(TreeNode node,char[] sen, int offset)

{

ArrayList<Integer> list=new ArrayList<Integer>();

for(int i=offset; i<sen.length; i++)

{

node = node.subNode(sen[i]);

if(node != null)

{

if(node.isAlsoLeaf())

list.add(i+1);

}

else

break;

}

if(list.size()==0)

list.add(offset);

return list;

}

public ArrayList<Token> getToken(ArrayList<Sentence> list)

{

ArrayList<Token> tokenlist=new ArrayList<Token>();

for(Sentence sen:list)

{

int i=0;

while(i<sen.getText().length)

{

TreeNode n=dic.get(sen.getText()[i]);

if(n!=null)

{

ArrayList<Integer> ilist =maxMatch(n, sen.getText(),i);

if(ilist.size()>1)

{

for(int j=0;j<ilist.size();j++)

{

Token token = new Token(new String(sen.getText(),i,ilist.get(j)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(j));

tokenlist.add(token);

}

else

{

if(ilist.get(0)>i)

{

Token token = new Token(new String(sen.getText(),i,ilist.get(0)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(0));

tokenlist.add(token);

}

else

{

if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())

{

Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);

tokenlist.add(token);

}

else

{

if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())

{

Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);

tokenlist.add(token);

}

i++;

}

return tokenlist;

}

posted on 2012-07-02 14:17 nianzai 閱讀(3082) 評論(4) 編輯收藏所屬分類: 中文分詞

評論:

# re: 全切分分詞程序,能實現中英文數字混合分詞 2012-07-16 11:16 | hadoop

你好，非常感謝你的nut項目，在使用過程中有些問題：怎樣分發nutla生成的索引文件到每個datanode，代碼里面好像沒有提到，希望能給點思路，還有方便留下你的聯系方式嗎，想向你多學習回復更多評論

# re: 全切分分詞程序,能實現中英文數字混合分詞 2012-07-16 18:14 | nianzai

這個現在需要手工分發。回復更多評論

# re: 全切分分詞程序,能實現中英文數字混合分詞 2012-07-16 18:15 | nianzai

QQ:383138070 回復更多評論

# re: 全切分分詞程序,能實現中英文數字混合分詞 2014-05-14 15:32 | sdyjmc

能對車牌號進行分詞嗎？ M 是什么啊回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 隱馬可夫(HMM)中文分詞詞性標注程序最大概率分詞程序最短路徑分詞程序全切分分詞程序,能實現中英文數字混合分詞逆向最大匹配分詞程序，能實現中英文數字混合分詞 (第二版) 正向最大匹配分詞程序，能實現中英文數字混合分詞 (第二版) 基于詞典的逆向最大匹配中文分詞算法，逆向分詞比正向分詞效果好基于詞典的正向最大匹配中文分詞算法，能實現中英文數字混合分詞

<

2012年7月

>

日

一

二

三

四

五

六

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

常用鏈接

留言簿(9)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜