posts - 110,  comments - 152,  trackbacks - 0

          下午配置成功了Nutch0.9.截圖記錄一下。

          nutchsuccess

           

           

           

           

           

           

           

          網(wǎng)絡(luò)上面介紹這個(gè)配置的比較多,我就不重復(fù)勞動了。

          推薦文檔如下:Nutch Version 0.8x tutorial ,還有就是這里的篇日志

          我在這里記錄一下遇到的幾個(gè)錯(cuò)誤和解決辦法,大家可能有用。

          如執(zhí)行如下命令:
          ./nutch crawl ../urls.txt  -dir ../ihooyo  -depth 5 -topN 100
          參數(shù)說明:
          -url 就是剛才我們創(chuàng)建的url文件,存放我們要抓取的網(wǎng)址
          -dir 指定抓取內(nèi)容所存放的目錄,如上存在mydir中
          -threads 指定并發(fā)的線程數(shù)
          -depth 表示以要抓取網(wǎng)站頂級網(wǎng)址為起點(diǎn)的爬行深度
          -topN 表示獲取前多少條記錄,可省

          可能錯(cuò)誤1:

          Generator: jobtracker is 'local', generating exactly one partition.
          Generator: 0 records selected for fetching, exiting ...
          Stopping at depth=0 - no more URLs to fetch.
          No URLs to fetch - check your seed list and URL filters.
          crawl finished: sina5

          說明:指定要抓取的網(wǎng)址(url.txt)經(jīng)過(crawl-urlfilters.xml)過濾后,已經(jīng)沒有可抓取對象了,檢查兩者的匹配即可。

          可能錯(cuò)誤2:

          Dedup: starting
          Dedup: adding indexes in: ../ihooyo/indexes
          Exception in thread "main" java.io.IOException: Job failed!
                  at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
                  at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
                  at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

          說明:一般為./conf/nutch-site.xml文件配置有錯(cuò)誤。請參考如下配置修改。
          [xml]
          <property>
          <name>http.agent.name</name>
          <value>ihooyo</value>
          <description></description>
          </property>
          <property>
          <name>http.agent.description</name>
          <value>apersonblog</value>
          <description></description>
          </property>
          <property>
          <name>http.agent.url</name>
          <value>www.ihooyo.com</value>
          <description></description>
          </property>
          <property>
          <name>http.agent.email</name>
          <value>pjuneye@qq.com</value>
          <description></description>
          </property>
          [/xml]
          這種配置錯(cuò)誤,在log日志中可找到提示。

          可能錯(cuò)誤3:

          Injector: Converting injected urls to crawl db entries.
          Exception in thread "main" java.io.IOException: Job failed!
                  at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
                  at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
                  at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

          說明:一般為crawl-urlfilters.txt中配置問題,比如過濾條件應(yīng)為
          +^http://www.ihooyo.com ,而配置成了 http://www.ihooyo.com 這樣的情況就引起如上錯(cuò)誤。

          好了寫完了。



          平凡而簡單的人一個(gè),無權(quán)無勢也無牽無掛。一路廝殺,只進(jìn)不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標(biāo)記在心里面,向前進(jìn)。一次一步,一步一腳印,跬步千里。
          這個(gè)角色很適合現(xiàn)在的


          posted on 2008-04-01 17:11 過河卒 閱讀(1614) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉(zhuǎn)貼請聲明!
          訪問統(tǒng)計(jì):
          主站蜘蛛池模板: 祁连县| 荔浦县| 天水市| 澄江县| 曲麻莱县| 介休市| 花莲市| 洛阳市| 南投县| 栾川县| 湄潭县| 顺昌县| 綦江县| 出国| 郎溪县| 龙岩市| 开封市| 马尔康县| 金阳县| 巴中市| 湖口县| 靖西县| 定结县| 伊川县| 河津市| 梨树县| 汉源县| 罗田县| 正镶白旗| 黄冈市| 特克斯县| 乌什县| 小金县| 阿克| 仪征市| 施秉县| 婺源县| 东安县| 康马县| 乌苏市| 绥德县|