泰仔在線

java學習,心情日記,繽紛時刻

posts - 100, comments - 34, trackbacks - 0, articles - 0

nutch抓取動態(tài)網(wǎng)頁

Posted on 2010-04-24 19:06 泰仔在線閱讀(2215) 評論(1) 編輯收藏所屬分類: 云計算相關

解決搜索動態(tài)內(nèi)容的問題：
需要注意在conf下面的2個文件：regex-urlfilter.txt，crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] （-改+）
這段意思是跳過在連接中存在? * ! @ = 的頁面，因為默認是跳過所以，在動態(tài)頁中存在？一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成：
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允許的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
注意：兩個文件都需要修改，因為NUTCH加載規(guī)則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

轉(zhuǎn)自:nutch抓取動態(tài)網(wǎng)頁

Feedback

# re: nutch抓取動態(tài)網(wǎng)頁 回復 更多評論

2012-03-09 17:06 by da

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Nutch URL過濾配置規(guī)則 nutch抓取動態(tài)網(wǎng)頁 Nutch中的html頁面的解析問題 Nutch中的一些小的問題解決 Nutch插件加載分析 nutch源代碼閱讀心得 MapReduce算法模式 MapReduce 簡介

泰仔在線

導航

留言簿(3)

隨筆分類

收藏夾

Database相關

Enet 沖浪

Java 技術

Linux相關

搜索

最新評論

閱讀排行榜

nutch抓取動態(tài)網(wǎng)頁

Feedback

# re: nutch抓取動態(tài)網(wǎng)頁 回復 更多評論

泰仔在線

導航

留言簿(3)

隨筆分類

收藏夾

Database相關

Enet 沖浪

Java 技術

Linux相關

搜索

最新評論

閱讀排行榜

nutch抓取動態(tài)網(wǎng)頁

Feedback

# re: nutch抓取動態(tài)網(wǎng)頁 回復 更多評論

# re: nutch抓取動態(tài)網(wǎng)頁回復更多評論