隨筆-8  評(píng)論-31  文章-0  trackbacks-0
          我在Run Nutch的時(shí)候出現(xiàn)這樣的錯(cuò)誤 -

          08/07/07 04:05:41 INFO conf.Configuration: found resource crawl-urlfilter.txt at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/crawl-urlfilter.txt
          08/07/07 04:05:41 INFO conf.Configuration: found resource parse-plugins.xml at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/parse-plugins.xml
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.yale.edu/
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.harvard.edu/
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.harvard.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http
          08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.yale.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http

          解決方法:nutch-site.xml
              <property>
                  
          <name>plugin.includes</name>
                  
          <value>
                      nutch-extensionpoints|
          protocol-http|urlfilter-regex|parse-(text|html|js)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
                  
          </value>
                  
          <description>Regular expression naming plugin directory names to
                      include. Any plugin not matching 
          this expression is excluded.
                      In any 
          case you need at least include the nutch-extensionpoints plugin. By
                      
          default Nutch includes crawling just HTML and plain text via HTTP,
                      and basic indexing and search plugins. In order to use HTTPS please enable
                      protocol
          -httpclient, but be aware of possible intermittent problems with the
                      underlying commons
          -httpclient library.
                  
          </description>
              
          </property>

          nutch-extensionpoints|被我錯(cuò)誤的刪除了,還原以后一切工作正常. 默認(rèn)情況下nutch0.9的目錄結(jié)構(gòu)中并沒有plugin.includes這個(gè)properties, 它會(huì)載入nutch-default.xml里面的plugin.includes所以定義的所有的plugin. 在nutch-site.xml編輯/加入 plugin.includes properties的目的是為了加入我們自己的plugin而覆蓋nutch-default.xml定義的.
          posted on 2008-07-10 11:38 自己的小屋 閱讀(2345) 評(píng)論(0)  編輯  收藏

          只有注冊用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 东莞市| 和硕县| 府谷县| 闽清县| 临夏县| 绵竹市| 巴林左旗| 天柱县| 托克托县| 瑞金市| 大足县| 马龙县| 宁强县| 临潭县| 平乐县| 桂阳县| 宜黄县| 台安县| 杭锦后旗| 西贡区| 叙永县| 东台市| 布尔津县| 满城县| 罗平县| 乌兰浩特市| 西安市| 舒城县| 临漳县| 翁源县| 宣武区| 新田县| 黑龙江省| 巨鹿县| 青田县| 扶绥县| 绵竹市| 武定县| 财经| 离岛区| 石家庄市|