東北大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)研究所Web信息處理小組

          urrr... These guys do research ?!

          搭建基于Nutch1.0的搜索引擎說(shuō)明文檔

           

          一、簡(jiǎn)介

            Nutch是一個(gè)開(kāi)源的Web搜索引擎。

                 主要分為兩個(gè)部分:爬蟲(chóng)crawler和查詢searcher,兩者之間的接口是索引。

           

          二、需要的軟件

          • JDK1.6

          • Tomcat6.0

          • cygwin

          • nutch1.0

          三、安裝與配置

          1. JDK

          • 下載地址:http://www.sun.com

          • 安裝目錄:C:\Java\jdk1.6.0_14

          • 修改環(huán)境變量:

          JAVA_HOME= C:\Java\jdk1.6.0_14

          CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar

          PATH= %JAVA_HOME%\bin

          • 測(cè)試:

          Java -version

          2. Tomcat6.0

          • 下載地址:

          http://tomcat.apache.org/download-60.cgi?Preferred=http%3A%2F%2Fapache.freelamp.com

          • 安裝目錄:C:\tomcat6

          • 安裝測(cè)試:

                        a)  啟動(dòng)tomcat:在DOS下,cd C:\tomcat6\bin\startup.bat

                        b)  瀏覽器地址欄輸入:

                     http://localhost:8080/

                           出現(xiàn)tomcat主頁(yè)則成功

              • 更改C:\tomcat6\conf \tomcat-users.xml內(nèi)容

              <tomcat-users>

                <role rolename="manager"/>

                <user username="tomcat" password="tomcat" roles="manager"/>

              </tomcat-users>

              3. Cygwin

              • 下載地址:

              http://www.cygwin.cn/

              • 使用原因:

                         運(yùn)行Nutch自帶的腳本命令需要Linux的環(huán)境,使用cygwin來(lái)模擬該環(huán)境。cygwin是在windows平臺(tái)上運(yùn)行的unix模擬環(huán)境。

                    • 安裝目錄:C:\cygwin

                                   注意:在選擇下載站點(diǎn)需要輸入如下網(wǎng)址,并在最后選擇本地磁盤(pán)安裝:

                                          http://www.cygwin.cn/pub/

                      • 測(cè)試:

                      進(jìn)入cygwin

                      4. Nutch

                      • 下載地址:

                      http://www.apache.org/dyn/closer.cgi/lucene/nutch/

                      • 版本:nutch-1.0

                      • 解壓后到:C:\nutch-1.0

                      • 設(shè)置Nutch的環(huán)境變量:

                      NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

                      • 修改環(huán)境變量PATH :

                        PATH= %JAVA_HOME%\bin; % NUTCH_JAVA_HOME %\bin

                        • 在C:\nutch-1.0下建立url.txt文件來(lái)制定爬去列表

                              在txt文件中寫(xiě)入需要爬取的網(wǎng)站地址http://dblp.lab/

                              • 測(cè)試:

                                    開(kāi)啟Cygwin

                                  cd cygdriver/c/nutch-1.0

                                  bin/nutch

                                  若出現(xiàn)若干命令,則說(shuō)明Nutch配置成功

                                  四、抓取網(wǎng)頁(yè)數(shù)據(jù)

                                  1. 指定爬蟲(chóng)規(guī)則

                                  • 修改Nutch-1.0/conf/crawl-urlfilter.txt

                                  # accept hosts in MY.DOMAIN.NAME

                                  +^http://dblp.lab/

                                  • 修改Nutch-1.0/conf/nutch-site.xml

                                  <configuration>

                                    <property>

                                    <name>http.agent.name</name>

                                    <value>my nutch agent</value>

                                    </property>

                                    <property>

                                    <name>http.agent.version</name>

                                    <value>1.0</value>

                                    </property>

                                  </configuration>

                                  2. 開(kāi)始爬取

                                  3. 打開(kāi)Cygwin

                                  4. 在命令行輸入

                                  cd /cygdrive/c/nutch-1.0

                                  5. 執(zhí)行命令

                                  Bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log

                                     其中:dir是指定爬取內(nèi)容所存放的目錄,depth表示以要爬取網(wǎng)站頂級(jí)網(wǎng)址為起點(diǎn)的爬行深度,threads指定并發(fā)的線程數(shù)

                                  6. 爬取中......(采集網(wǎng)頁(yè)并建立索引)

                                  7. 結(jié)束后在Nutch目錄下產(chǎn)生爬取內(nèi)容的文件夾crawled和日志文件夾logs

                                  五、部署Web前端

                                  1. 將nutch-1.0.war拷貝到webapps目錄下

                                  2. 通過(guò)瀏覽器訪問(wèn)如下網(wǎng)址,war包會(huì)自解壓

                                  http://localhost:8080/nutch-1.0/

                                  3. 修改nutch的web配置

                                         更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ,將內(nèi)容更改為索引生成的目錄

                                  <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

                                  <!-- Put site-specific property overrides in this file. -->

                                  <nutch-conf>

                                  <property>

                                    <name>searcher.dir</name>

                                    <value>C:\nutch-1.0\crawled</value>

                                  </property>

                                  </nutch-conf>

                                  六、解決中文亂碼問(wèn)題

                                           修改文件C:\tomcat6\conf\server.xml

                                  <Connector port="8080" maxThreads="150" minSpareThreads="25"

                                  maxSpareThreads="75" enableLookups="false" redirectPort="8443"

                                  acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"

                                  URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />

                                   

                                  七、搭建完成

                                  1. 啟動(dòng)Tomcat

                                  2. 通過(guò)瀏覽器訪問(wèn)

                                  http://localhost:8080/nutch-1.0/

                                  (by 王海明)

                                  posted on 2009-06-04 11:21 wipt 閱讀(2865) 評(píng)論(8)  編輯  收藏

                                  Feedback

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔 2009-09-25 12:00 sfd

                                  LZ,你自己試過(guò)嗎?  回復(fù)  更多評(píng)論   

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔 2009-09-25 15:02 wipt

                                  @sfd
                                  經(jīng)過(guò)測(cè)試,沒(méi)有問(wèn)題。但是只能保證在特定的環(huán)境下沒(méi)有問(wèn)題,不保證對(duì)應(yīng)所有版本的操作系統(tǒng),運(yùn)行環(huán)境以及軟件下都沒(méi)有問(wèn)題。  回復(fù)  更多評(píng)論   

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔 2009-11-03 14:52 方紅

                                  nutch1.0 分布式爬行能在window xp 上運(yùn)行嗎  回復(fù)  更多評(píng)論   

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔 2009-11-03 14:59 wipt

                                  @方紅
                                  我們的系統(tǒng)運(yùn)行在windows server 2003上。在調(diào)試階段運(yùn)行于windows xp下。但是不清楚您所說(shuō)的分布式爬行是不是nutch的默認(rèn)配置。  回復(fù)  更多評(píng)論   

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔 2010-02-10 09:36 優(yōu)仁

                                  設(shè)置Nutch的環(huán)境變量:

                                  NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

                                  請(qǐng)問(wèn)這個(gè)地方是不是寫(xiě)錯(cuò)了呢
                                  是不是應(yīng)該是:NUTCH_JAVA_HOME= C:\nutch-1.0  回復(fù)  更多評(píng)論   

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔[未登錄](méi) 2010-11-23 22:44 老謝

                                  環(huán)境:windows+cygwin(用于模擬unix系統(tǒng))+nutch1.0

                                  要用于生產(chǎn)環(huán)境。


                                  當(dāng)我抓取完網(wǎng)頁(yè)以后,啟動(dòng)tomcat,輸入關(guān)鍵字搜索網(wǎng)頁(yè)后,那么我再次運(yùn)行nutch抓取網(wǎng)頁(yè)的時(shí)候就會(huì)報(bào)錯(cuò)!
                                  當(dāng)我把tomcat關(guān)閉以后抓取網(wǎng)頁(yè)就沒(méi)有任何問(wèn)題。后來(lái)我仔細(xì)查了一下是因?yàn)閠omcat啟動(dòng)后占用了nutch的索引文件而沒(méi)有釋放資源造成的。 也就是說(shuō)在tomcat啟動(dòng)的時(shí)候,nutch是不能抓取網(wǎng)站合并索引的。

                                  在生產(chǎn)環(huán)境下,要求每一個(gè)小時(shí)就要增量抓取一次,我總不能把tomcat關(guān)了吧。

                                  在生產(chǎn)環(huán)境下,這個(gè)問(wèn)題應(yīng)該怎么解決呢?
                                    回復(fù)  更多評(píng)論   

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔[未登錄](méi) 2010-11-23 22:45 老謝

                                  環(huán)境:windows+cygwin(用于模擬unix系統(tǒng))+nutch1.0

                                  要用于生產(chǎn)環(huán)境。


                                  當(dāng)我抓取完網(wǎng)頁(yè)以后,啟動(dòng)tomcat,輸入關(guān)鍵字搜索網(wǎng)頁(yè)后,那么我再次運(yùn)行nutch抓取網(wǎng)頁(yè)的時(shí)候就會(huì)報(bào)錯(cuò)!
                                  當(dāng)我把tomcat關(guān)閉以后抓取網(wǎng)頁(yè)就沒(méi)有任何問(wèn)題。后來(lái)我仔細(xì)查了一下是因?yàn)閠omcat啟動(dòng)后占用了nutch的索引文件而沒(méi)有釋放資源造成的。 也就是說(shuō)在tomcat啟動(dòng)的時(shí)候,nutch是不能抓取網(wǎng)站合并索引的。

                                  在生產(chǎn)環(huán)境下,要求每一個(gè)小時(shí)就要增量抓取一次,我總不能把tomcat關(guān)了吧。
                                  請(qǐng)回到我的郵箱里吧:xieyunchaobest@gmail.com

                                  在生產(chǎn)環(huán)境下,這個(gè)問(wèn)題應(yīng)該怎么解決呢?
                                    回復(fù)  更多評(píng)論   

                                  # re: 搭建基于Nutch1.0的搜索引擎說(shuō)明文檔[未登錄](méi) 2010-11-23 22:48 wipt

                                  @老謝

                                  不好意思,負(fù)責(zé)這個(gè)部分的同學(xué)已經(jīng)畢業(yè)了  回復(fù)  更多評(píng)論   


                                  只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


                                  網(wǎng)站導(dǎo)航:
                                   
                                  主站蜘蛛池模板: 余姚市| 吉首市| 安乡县| 兴文县| 繁峙县| 石家庄市| 余干县| 望江县| 定远县| 张家川| 镇雄县| 荆州市| 清苑县| 泸西县| 神农架林区| 柞水县| 武城县| 布尔津县| 岳阳县| 股票| 隆回县| 平利县| 盐山县| 秭归县| 定边县| 大石桥市| 莱阳市| 平原县| 荥经县| 炉霍县| 若羌县| 博湖县| 浙江省| 丹江口市| 邹平县| 调兵山市| 华亭县| 巫溪县| 泰州市| 阳高县| 惠东县|