過河卒
平凡而簡單的人一個(gè)，無權(quán)無勢也無牽無掛。一路廝殺，只進(jìn)不退，死而后已，豈不爽哉！
收起對“車”日行千里的羨慕；收起對“馬”左右逢緣的感嘆；目標(biāo)記在心里面，向前進(jìn)。一次一步，一步一腳印，跬步千里。
這個(gè)角色很適合現(xiàn)在的我。

:: 首頁 :: 新隨筆 :: :: 聚合

:: 管理

posts - 110, comments - 152, trackbacks - 0

公告

交朋友，這樣聯(lián)系我：

有事，你Q我，點(diǎn)這里就OK：

最近在讀的書：

暫無

歡迎訂閱：

訂閱本站

<

2008年4月

>

日

一

二

三

四

五

六

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

隨筆分類(110)

Blog友

搜索

最新評論

1.?re: 回歸
老朋友，歡迎回來！
--CodeDream
2.?re: 開通Android Market流程
不錯(cuò)
--todi
3.?re: 通讀Android文檔系列 TWO[未登錄]
"如果要卸載apk卻沒有提供adb uninstall這個(gè)命令"
adb uninstall +package name not apk file name
--star
4.?re: 讀《SQL必知必會》所得 FOUR
我找了個(gè)英文版的，看的巨慢。。。。。你總結(jié)的很好，對我很有幫助，謝謝
--cici
5.?re: Javascript調(diào)用OCX控件
麻煩寫下通過javascript捕獲ocx事件
--phd

Nutch0.9基本配置

下午配置成功了Nutch0.9.截圖記錄一下。

網(wǎng)絡(luò)上面介紹這個(gè)配置的比較多，我就不重復(fù)勞動了。

推薦文檔如下：Nutch Version 0.8x tutorial ，還有就是這里的篇日志。

我在這里記錄一下遇到的幾個(gè)錯(cuò)誤和解決辦法，大家可能有用。

如執(zhí)行如下命令：
./nutch crawl ../urls.txt -dir ../ihooyo -depth 5 -topN 100
參數(shù)說明：
-url 就是剛才我們創(chuàng)建的url文件,存放我們要抓取的網(wǎng)址
-dir 指定抓取內(nèi)容所存放的目錄，如上存在mydir中
-threads 指定并發(fā)的線程數(shù)
-depth 表示以要抓取網(wǎng)站頂級網(wǎng)址為起點(diǎn)的爬行深度
-topN 表示獲取前多少條記錄，可省

可能錯(cuò)誤1：

Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: sina5

說明：指定要抓取的網(wǎng)址(url.txt)經(jīng)過(crawl-urlfilters.xml)過濾后，已經(jīng)沒有可抓取對象了，檢查兩者的匹配即可。

可能錯(cuò)誤2：

Dedup: starting
Dedup: adding indexes in: ../ihooyo/indexes
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

說明：一般為./conf/nutch-site.xml文件配置有錯(cuò)誤。請參考如下配置修改。
[xml]
<property>
<name>http.agent.name</name>
<value>ihooyo</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>apersonblog</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>www.ihooyo.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>pjuneye@qq.com</value>
<description></description>
</property>
[/xml]
這種配置錯(cuò)誤，在log日志中可找到提示。

可能錯(cuò)誤3：

Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

說明：一般為crawl-urlfilters.txt中配置問題，比如過濾條件應(yīng)為
+^http://www.ihooyo.com ,而配置成了 http://www.ihooyo.com 這樣的情況就引起如上錯(cuò)誤。

好了寫完了。

平凡而簡單的人一個(gè)，無權(quán)無勢也無牽無掛。一路廝殺，只進(jìn)不退，死而后已，豈不爽哉！
收起對“車”日行千里的羨慕；收起對“馬”左右逢緣的感嘆；目標(biāo)記在心里面，向前進(jìn)。一次一步，一步一腳印，跬步千里。
這個(gè)角色很適合現(xiàn)在的我。

posted on 2008-04-01 17:11 過河卒閱讀(1614) 評論(0) 編輯收藏所屬分類: Java/Java框架

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: Netbean導(dǎo)入源代碼和Javadoc [轉(zhuǎn)]提高Java水平的十大技術(shù) Nutch爬蟲的工作過程 Nutch的數(shù)據(jù)存儲結(jié)構(gòu)。 Nutch0.9基本配置 Nutch初接觸 [ZT]Java版大腕對白排序：堆排序算法金蝶OperaMasks框架的宣傳視頻 AXIS1.4 DOC 閱讀筆記