隨筆-8  評論-31  文章-0  trackbacks-0
            2008年7月10日
          我在Run Nutch的時候出現這樣的錯誤 -

          08/07/07 04:05:41 INFO conf.Configuration: found resource crawl-urlfilter.txt at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/crawl-urlfilter.txt
          08/07/07 04:05:41 INFO conf.Configuration: found resource parse-plugins.xml at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/parse-plugins.xml
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.yale.edu/
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.harvard.edu/
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.harvard.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.yale.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http

          解決方法:nutch-site.xml
              <property>
                  
          <name>plugin.includes</name>
                  
          <value>
                      nutch-extensionpoints|
          protocol-http|urlfilter-regex|parse-(text|html|js)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
                  
          </value>
                  
          <description>Regular expression naming plugin directory names to
                      include. Any plugin not matching 
          this expression is excluded.
                      In any 
          case you need at least include the nutch-extensionpoints plugin. By
                      
          default Nutch includes crawling just HTML and plain text via HTTP,
                      and basic indexing and search plugins. In order to use HTTPS please enable
                      protocol
          -httpclient, but be aware of possible intermittent problems with the
                      underlying commons
          -httpclient library.
                  
          </description>
              
          </property>

          nutch-extensionpoints|被我錯誤的刪除了,還原以后一切工作正常. 默認情況下nutch0.9的目錄結構中并沒有plugin.includes這個properties, 它會載入nutch-default.xml里面的plugin.includes所以定義的所有的plugin. 在nutch-site.xml編輯/加入 plugin.includes properties的目的是為了加入我們自己的plugin而覆蓋nutch-default.xml定義的.
          posted @ 2008-07-10 11:38 自己的小屋 閱讀(2345) | 評論 (0)編輯 收藏
          Nutch0.9 Crawl在Run的時候,有時候會出現 -


          java.lang.ArrayIndexOutOfBoundsException: -1

          at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:
          113)

          at org.apache.nutch.indexer.DeleteDuplicates$InputFormat$DDRecordReader.next(DeleteDuplicates.java:
          176)

          at org.apache.hadoop.mapred.MapTask$
          1.next(MapTask.java:157)

          at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:
          46)

          at org.apache.hadoop.mapred.MapTask.run(MapTask.java:
          175)

          at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:
          126)

          Exception in thread 
          "main" java.io.IOException: Job failed!

          at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:
          604)

          at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:
          439)

          at org.apache.nutch.crawl.Crawl.main(Crawl.java:
          135)

          問題的解決方法:

          https://issues.apache.org/jira/browse/NUTCH-525?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel#action_12515955



          posted @ 2008-07-10 11:32 自己的小屋 閱讀(621) | 評論 (0)編輯 收藏
          主站蜘蛛池模板: 惠来县| 云霄县| 河间市| 荃湾区| 桑日县| 平遥县| 麟游县| 高淳县| 韶山市| 四会市| 施甸县| 靖宇县| 宁化县| 海安县| 济阳县| 瑞安市| 安阳市| 景德镇市| 朝阳县| 海兴县| 大足县| 罗定市| 翁牛特旗| 临猗县| 双桥区| 大安市| 潮州市| 界首市| 龙胜| 乐安县| 松滋市| 苏尼特右旗| 西盟| 长寿区| 雅安市| 灵寿县| 德兴市| 文成县| 五大连池市| 新兴县| 罗定市|