搭建基于Nutch1.0的搜索引擎說明文檔

一、簡介

　　Nutch是一個開源的Web搜索引擎。

主要分為兩個部分：爬蟲crawler和查詢searcher，兩者之間的接口是索引。

二、需要的軟件

JDK1.6
Tomcat6.0
cygwin
nutch1.0

三、安裝與配置

1. JDK

下載地址：http://www.sun.com
安裝目錄：C:\Java\jdk1.6.0_14
修改環境變量：

JAVA_HOME= C:\Java\jdk1.6.0_14

CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar

PATH= %JAVA_HOME%\bin

測試：

Java -version

2. Tomcat6.0

下載地址：

http://tomcat.apache.org/download-60.cgi?Preferred=http%3A%2F%2Fapache.freelamp.com

安裝目錄：C:\tomcat6
安裝測試：
        a) 啟動tomcat：在DOS下，cd C:\tomcat6\bin\startup.bat

        b) 瀏覽器地址欄輸入：

     http://localhost:8080/

出現tomcat主頁則成功

更改C:\tomcat6\conf \tomcat-users.xml內容

<tomcat-users>

　　<role rolename="manager"/>

　　<user username="tomcat" password="tomcat" roles="manager"/>

</tomcat-users>

3. Cygwin

下載地址：

http://www.cygwin.cn/

使用原因：

運行Nutch自帶的腳本命令需要Linux的環境，使用cygwin來模擬該環境。cygwin是在windows平臺上運行的unix模擬環境。

安裝目錄：C:\cygwin
注意：在選擇下載站點需要輸入如下網址，并在最后選擇本地磁盤安裝：

http://www.cygwin.cn/pub/

測試：

進入cygwin

4. Nutch

下載地址：

http://www.apache.org/dyn/closer.cgi/lucene/nutch/

版本：nutch-1.0
解壓后到：C:\nutch-1.0

設置Nutch的環境變量：

NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

修改環境變量PATH ：

PATH= %JAVA_HOME%\bin; % NUTCH_JAVA_HOME %\bin

在C:\nutch-1.0下建立url.txt文件來制定爬去列表

在txt文件中寫入需要爬取的網站地址http://dblp.lab/

測試：
開啟Cygwin

cd cygdriver/c/nutch-1.0

bin/nutch

若出現若干命令，則說明Nutch配置成功

四、抓取網頁數據

1. 指定爬蟲規則

修改Nutch-1.0/conf/crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME

+^http://dblp.lab/

修改Nutch-1.0/conf/nutch-site.xml

<configuration>

　　<property>

　　<name>http.agent.name</name>

　　<value>my nutch agent</value>

　　</property>

　　<property>

　　<name>http.agent.version</name>

　　<value>1.0</value>

　　</property>

</configuration>

2. 開始爬取

3. 打開Cygwin

4. 在命令行輸入

cd /cygdrive/c/nutch-1.0

5. 執行命令

Bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log

　　其中：dir是指定爬取內容所存放的目錄，depth表示以要爬取網站頂級網址為起點的爬行深度，threads指定并發的線程數

6. 爬取中......（采集網頁并建立索引）

7. 結束后在Nutch目錄下產生爬取內容的文件夾crawled和日志文件夾logs

五、部署Web前端

1. 將nutch-1.0.war拷貝到webapps目錄下

2. 通過瀏覽器訪問如下網址，war包會自解壓

http://localhost:8080/nutch-1.0/

3. 修改nutch的web配置

更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ，將內容更改為索引生成的目錄

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>



<nutch-conf>

<property>

　　<name>searcher.dir</name>

　　<value>C:\nutch-1.0\crawled</value>

</property>

</nutch-conf>

六、解決中文亂碼問題

修改文件C:\tomcat6\conf\server.xml

<Connector port="8080" maxThreads="150" minSpareThreads="25"

maxSpareThreads="75" enableLookups="false" redirectPort="8443"

acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"

URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />

七、搭建完成

1. 啟動Tomcat

2. 通過瀏覽器訪問

http://localhost:8080/nutch-1.0/

（by 王海明）

posted on 2009-06-04 11:21 wipt 閱讀(2867) 評論(8) 編輯收藏

Feedback

# re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-09-25 12:00 sfd

LZ，你自己試過嗎？回復更多評論

# re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-09-25 15:02 wipt

@sfd
經過測試，沒有問題。但是只能保證在特定的環境下沒有問題，不保證對應所有版本的操作系統，運行環境以及軟件下都沒有問題。回復更多評論

# re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-11-03 14:52 方紅

nutch1.0 分布式爬行能在window xp 上運行嗎回復更多評論

# re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-11-03 14:59 wipt

@方紅
我們的系統運行在windows server 2003上。在調試階段運行于windows xp下。但是不清楚您所說的分布式爬行是不是nutch的默認配置。回復更多評論

# re: 搭建基于Nutch1.0的搜索引擎說明文檔 2010-02-10 09:36 優仁

設置Nutch的環境變量：

NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

請問這個地方是不是寫錯了呢
是不是應該是：NUTCH_JAVA_HOME= C:\nutch-1.0 回復更多評論

# re: 搭建基于Nutch1.0的搜索引擎說明文檔[未登錄] 2010-11-23 22:44 老謝

環境：windows+cygwin（用于模擬unix系統）+nutch1.0

要用于生產環境。

當我抓取完網頁以后，啟動tomcat，輸入關鍵字搜索網頁后，那么我再次運行nutch抓取網頁的時候就會報錯！
當我把tomcat關閉以后抓取網頁就沒有任何問題。后來我仔細查了一下是因為tomcat啟動后占用了nutch的索引文件而沒有釋放資源造成的。也就是說在tomcat啟動的時候，nutch是不能抓取網站合并索引的。

在生產環境下，要求每一個小時就要增量抓取一次，我總不能把tomcat關了吧。

在生產環境下，這個問題應該怎么解決呢？
回復更多評論

# re: 搭建基于Nutch1.0的搜索引擎說明文檔[未登錄] 2010-11-23 22:45 老謝

環境：windows+cygwin（用于模擬unix系統）+nutch1.0

要用于生產環境。

當我抓取完網頁以后，啟動tomcat，輸入關鍵字搜索網頁后，那么我再次運行nutch抓取網頁的時候就會報錯！
當我把tomcat關閉以后抓取網頁就沒有任何問題。后來我仔細查了一下是因為tomcat啟動后占用了nutch的索引文件而沒有釋放資源造成的。也就是說在tomcat啟動的時候，nutch是不能抓取網站合并索引的。

在生產環境下，要求每一個小時就要增量抓取一次，我總不能把tomcat關了吧。
請回到我的郵箱里吧：xieyunchaobest@gmail.com

在生產環境下，這個問題應該怎么解決呢？
回復更多評論

# re: 搭建基于Nutch1.0的搜索引擎說明文檔[未登錄] 2010-11-23 22:48 wipt

@老謝

不好意思，負責這個部分的同學已經畢業了回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

東北大學計算機應用技術研究所Web信息處理小組