泰仔在線

          java學習,心情日記,繽紛時刻
          posts - 100, comments - 34, trackbacks - 0, articles - 0

          nutch抓取動態網頁

          Posted on 2010-04-24 19:06 泰仔在線 閱讀(2215) 評論(1)  編輯  收藏 所屬分類: 云計算相關
          解決搜索動態內容的問題:
          需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
          # skip URLs containing certain characters as probable queries, etc.
          -[?*!@=] (-改+)
          這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
          # skip URLs containing certain characters as probable queries, etc.
          # -[?*!@=]
          另外增加允許的一行
          # accept URLs containing certain characters as probable queries, etc.
          +[?=&]
          意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
          注意:兩個文件都需要修改,因為NUTCH加載規則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

          轉自:nutch抓取動態網頁

          Feedback

          # re: nutch抓取動態網頁  回復  更多評論   

          2012-03-09 17:06 by da
          ds
          主站蜘蛛池模板: 旌德县| 田阳县| 剑阁县| 忻州市| 乌拉特前旗| 周口市| 文水县| 嘉鱼县| 姜堰市| 儋州市| 平潭县| 镇远县| 新乡市| 中山市| 扎囊县| 达尔| 深州市| 达拉特旗| 东阳市| 闻喜县| 永新县| 南召县| 乌兰浩特市| 万盛区| 彭州市| 泰和县| 玛曲县| 龙川县| 河源市| 芮城县| 胶南市| 镶黄旗| 始兴县| 霸州市| 邵武市| 游戏| 屏南县| 奉新县| 仲巴县| 佛坪县| 桦南县|