鷹翔宇空

學習和生活

BlogJava

管理

110 Posts :: 141 Stories :: 315 Comments :: 1 Trackbacks

Lucene中文分詞的高亮[highlight]顯示

引自：http://www.gamvan.com/developer/java/opener/2005/12/849.html

1、問題的來源增加分詞以后結果的準確度提高了，但是用戶反映返回結果的速度很慢。原因是， Lucene 做每一篇文檔的相關關鍵詞的高亮顯示時，在運行時執行了很多遍的分詞操作。這樣降低了性能。
2 、解決方法 
在 Lucene1.4.3 版本中的一個新功能可以解決這個問題。 Term Vector 現在支持保存 Token.getPositionIncrement() 和 Token.startOffset() 以及 Token.endOffset() 信息。利用 Lucene 中新增加的 Token 信息的保存結果以后，就不需要為了高亮顯示而在運行時解析每篇文檔。通過 Field 方法控制是否保存該信息。修改 HighlighterTest.java 的代碼如下：


代碼內容
// 增加文檔時保存 Term 位置信息。
private void addDoc(IndexWriter writer, String text) throws IOException
{
Document d = new Document();
//Field f = new Field(FIELD_NAME, text, true, true, true);
Field f = new Field(FIELD_NAME, text ,?
Field.Store.YES, Field.Index.TOKENIZED,
Field.TermVector.WITH_POSITIONS_OFFSETS);
d.add(f);
writer.addDocument(d);?
?}
// 利用 Term 位置信息節省 Highlight 時間。
void doStandardHighlights() throws Exception
{
??? Highlighter highlighter =new Highlighter(this,new QueryScorer(query));
highlighter.setTextFragmenter(new SimpleFragmenter(20));
for (int i = 0; i < hits.length(); i++)
{
String text = hits.doc(i).get(FIELD_NAME);
int maxNumFragmentsRequired = 2;
String fragmentSeparator = "...";
TermPositionVector tpv = (TermPositionVector)reader.getTermFreqVector(hits.id(i),FIELD_NAME);
// 如果沒有 stop words 去除還可以改成 TokenSources.getTokenStream(tpv,true); 進一步提速。
?? TokenStream tokenStream=TokenSources.getTokenStream(tpv);
?? //analyzer.tokenStream(FIELD_NAME,new StringReader(text));
?? String result =
?? highlighter.getBestFragments(
? ?tokenStream,
?? text,
?? maxNumFragmentsRequired,?
?????? fragmentSeparator);
?? System.out.println(" " + result);
?}
}

最后把 highlight 包中的一個額外的判斷去掉。對于中文來說沒有明顯的單詞界限，所以下面這個判斷是錯誤的：

tokenGroup.isDistinct(token)

這樣中文分詞就不會影響到查詢速度了。

posted on 2006-02-20 14:30 TrampEagle 閱讀(1214) 評論(0) 編輯收藏所屬分類: opensource

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Velocity簡介 DisplayTag應用 EasyJWeb－Velocity腳本教程 lucene全文檢索實現流程 Lucene中文分詞的高亮[highlight]顯示 Prototype Meets Ruby: A Look at Enumerable, Array and Hash Maven 讓事情變得簡單

鷹翔宇空

公告

常用鏈接

留言簿(16)

隨筆分類(107)

隨筆檔案(109)

文章分類(145)

文章檔案(141)

收藏夾(22)

java

javascript

jdbc

web

其它

開源項目

我的好友

最新隨筆

搜索

最新評論

閱讀排行榜

評論排行榜