墻頭草的Java

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理

posts - 241, comments - 116, trackbacks - 0

公告

<

2013年5月

>

日

一

二

三

四

五

六

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

常用鏈接

留言簿(6)

隨筆分類

隨筆檔案

友情鏈接

人人游戲網
貨運專家
軟件開發網
運費

搜索

閱讀排行榜

評論排行榜

nutch中文分詞

經過了幾天的折磨solr，公司又要求修改以前的一個 nutch項目，這次修改的東西比較多了，涉及到索引字段和日期索引等，這個我們下次再講，今天我們來講一下nutch的中文分詞。這時，我還是用了 IKAnalyzer，再次感謝作者的辛勞。提醒一下，這時用到的NUTCH是1.2版本。大智慧打不開

廢話不多說，我們現在開始進入正題：

1）在我們修改之前，我們先去下載一個工具,javacc，一個JAVA編譯器，可以到這里來下載，http://java.net/projects/javacc/downloads，下載完成后當然要解壓啦（廢話，呵呵），然后設置path把解壓的路徑添加到后面，確定可以從cmd進入。

2）我們需要添加中文分詞，首先需要找到 org.apache.nutch.analysis包內的NutchAnalysis.jj這個文件，找到| <SIGRAM: <CJK> >，把它修改為<SIGRAM: (<CJK>)+ >。

3）當我們修改完成后，我們需要把它進行重新編譯，我們先把 NutchAnalysis.jj拷到另外一個文件夾，免得生成的文件跟原有文件混淆了。在cmd中進行拷貝的文件夾，例如我們拷到temp，在temp 目錄內運行javacc NutchAnalysis.jj這個命令，它會在當前目錄下生成好幾個文件，把這幾個文件復制到org.apache.nutch.analysis包內(文件列表如下)，直接覆蓋即可：

注意，生成的文件NutchAnalysis.java會有錯誤，只要拋出異常即可。

修改完這時后，summary-basic的main函數會報錯，同樣也是異常的拋出問題，只要在這時進行捕獲就可以了。

代碼修改如下：

Java代碼

Query query = null;
try {
query = Query.parse(queryBuf.toString(), conf);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

4）當我們修改完成后，剩下來的一個就是修改NutchDocumentAnalyzer.java中的tokenStream()方法，修改如下：

Java代碼

public TokenStream tokenStream(String fieldName, Reader reader) {
Analyzer analyzer;
/*if ("anchor".equals(fieldName))
analyzer = ANCHOR_ANALYZER;
else
analyzer = CONTENT_ANALYZER;*/
analyzer = new IKAnalyzer();
TokenStream tokenStream = analyzer.tokenStream(fieldName,reader);
tokenStream.addAttribute(TypeAttribute.class);
tokenStream.addAttribute(FlagsAttribute.class);
tokenStream.addAttribute(PayloadAttribute.class);
tokenStream.addAttribute(PositionIncrementAttribute.class);
return tokenStream;
}

這時是添加IKAnalyzer作為分詞器，當然需要先把這個添加到lib目錄下。

5）完成完上面的步驟，也許有些人就以為搞定了，但事情并沒這么簡單，也許當我們搜索的時候會突然報出一個什么沒有該Field的錯誤，有點抱歉，這個錯誤不能重現了。

如果查詢時報什么錯誤，我們可以試著在summary-basic插件的源碼中修改如下：

添加修改getSummary方法：

Java代碼

if (highlight.contains(t.term())) {
excerpt.addToken(t.term());
if(offset < t.startOffset()){
excerpt.add(new Fragment(text.substring(offset, t.startOffset())));
excerpt.add(new Highlight(text.substring(t.startOffset(),t.endOffset())));
}else{
excerpt.add(new Highlight(text.substring(offset,t.endOffset())));
}
offset = t.endOffset();
endToken = Math.min(j + sumContext, tokens.length);
}

添加的為這段代碼

Java代碼

if(offset < t.startOffset()){
excerpt.add(new Fragment(text.substring(offset, t.startOffset())));
excerpt.add(new Highlight(text.substring(t.startOffset(),t.endOffset())));
}else{
excerpt.add(new Highlight(text.substring(offset,t.endOffset())));
}

這是修改getSummary時會出現數組溢出的錯誤。

當完成這一系列操作之后，我們就可以在nutch目錄中用ant命令進行編譯。編譯會重新生成所有jar包和job包?？梢栽赽uild目錄下找到。

我們需要把最主要的nutch-X.jar和nutch-X.job拷貝到需要進行爬取和nutch目錄下進行覆蓋。（其中的X為nutch的版本）

接下來，我們就可以重新運行nutch crawl urls -dir crawl -depth 4 -threads 10 -topN 50 >&crawl.log，這樣生成的索引就已經是經過中文分詞的。

posted on 2011-05-17 11:56 墻頭草閱讀(1043) 評論(1) 編輯收藏

Feedback

# re: nutch中文分詞

2013-05-20 14:26 | 木東

Nutch1.6，應該怎么添加分詞呢？回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

常用鏈接

留言簿(6)

隨筆分類

隨筆檔案

友情鏈接

搜索

最新評論

閱讀排行榜

評論排行榜