泰仔在線

java學(xué)習(xí),心情日記,繽紛時刻

posts - 100, comments - 34, trackbacks - 0, articles - 0

nutch抓取動態(tài)網(wǎng)頁

Posted on 2010-04-24 19:06 泰仔在線閱讀(2215) 評論(1) 編輯收藏所屬分類: 云計算相關(guān)

解決搜索動態(tài)內(nèi)容的問題：
需要注意在conf下面的2個文件：regex-urlfilter.txt，crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] （-改+）
這段意思是跳過在連接中存在? * ! @ = 的頁面，因為默認(rèn)是跳過所以，在動態(tài)頁中存在？一般按照默認(rèn)的是不能抓取到的?？梢栽谏厦?個文件中都修改成：
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允許的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
注意：兩個文件都需要修改，因為NUTCH加載規(guī)則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

轉(zhuǎn)自:nutch抓取動態(tài)網(wǎng)頁

Feedback

# re: nutch抓取動態(tài)網(wǎng)頁 回復(fù) 更多評論

2012-03-09 17:06 by da

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: Nutch URL過濾配置規(guī)則 nutch抓取動態(tài)網(wǎng)頁 Nutch中的html頁面的解析問題 Nutch中的一些小的問題解決 Nutch插件加載分析 nutch源代碼閱讀心得 MapReduce算法模式 MapReduce 簡介

泰仔在線

導(dǎo)航

留言簿(3)

隨筆分類

收藏夾

Database相關(guān)

Enet 沖浪

Java 技術(shù)

Linux相關(guān)

搜索

最新評論

閱讀排行榜

nutch抓取動態(tài)網(wǎng)頁

Feedback

# re: nutch抓取動態(tài)網(wǎng)頁 回復(fù) 更多評論

泰仔在線

導(dǎo)航

留言簿(3)

隨筆分類

收藏夾

Database相關(guān)

Enet 沖浪

Java 技術(shù)

Linux相關(guān)

搜索

最新評論

閱讀排行榜

nutch抓取動態(tài)網(wǎng)頁

Feedback

# re: nutch抓取動態(tài)網(wǎng)頁 回復(fù) 更多評論

# re: nutch抓取動態(tài)網(wǎng)頁回復(fù) 更多評論