推翻了第一版,參考了其他分詞程序,重新寫(xiě)的第二版。
逆向最大匹配中文分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞。比如能分出這樣的詞:bb霜、3室、樂(lè)phone、touch4、mp3、T恤
public class RMM2 extends M


{
public static final HashMap<Character,TreeNode> dic = Dictionary.getRmmdic();

/** *//**
* @return 返回匹配最長(zhǎng)詞的長(zhǎng)度, 沒(méi)有找到返回 0.
*/
public int maxMatch(TreeNode node,char[] sen, int offset)

{
int idx = offset;
for(int i=offset; i>=0; i--)

{
node = node.subNode(sen[i]);
if(node != null)

{
if(node.isAlsoLeaf())
idx = i;
}
else
break;
}
return idx ;
}
public ArrayList<Token> getToken(ArrayList<Sentence> list)

{
Collections.reverse(list);
ArrayList<Token> tokenlist=new ArrayList<Token>();
for(Sentence sen:list)

{
int i=sen.getText().length-1;
while(i>-1)

{
TreeNode n=dic.get(sen.getText()[i]);
if(n!=null)

{
int j=maxMatch(n, sen.getText(),i);
if(j<i)

{
Token token = new Token(new String(sen.getText(),j,i-j+1),sen.getStartOffset()+j,sen.getStartOffset()+i+1);
tokenlist.add(token);
i=j-1;
}
else

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
i--;
}
}
else

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
i--;
}
}
}
Collections.reverse(tokenlist);
return tokenlist;
}
}
posted on 2012-06-29 17:29
nianzai 閱讀(1372)
評(píng)論(0) 編輯 收藏 所屬分類:
中文分詞