泰仔在線

          java學習,心情日記,繽紛時刻
          posts - 100, comments - 34, trackbacks - 0, articles - 0

          導航

          <2012年3月>
          26272829123
          45678910
          11121314151617
          18192021222324
          25262728293031
          1234567

          留言簿(3)

          隨筆分類

          收藏夾

          Database相關

          Enet 沖浪

          Java 技術

          Linux相關

          搜索

          •  

          最新評論

          閱讀排行榜

          nutch抓取動態網頁

          Posted on 2010-04-24 19:06 泰仔在線 閱讀(2215) 評論(1)  編輯  收藏 所屬分類: 云計算相關
          解決搜索動態內容的問題:
          需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
          # skip URLs containing certain characters as probable queries, etc.
          -[?*!@=] (-改+)
          這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
          # skip URLs containing certain characters as probable queries, etc.
          # -[?*!@=]
          另外增加允許的一行
          # accept URLs containing certain characters as probable queries, etc.
          +[?=&]
          意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
          注意:兩個文件都需要修改,因為NUTCH加載規則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

          轉自:nutch抓取動態網頁

          Feedback

          # re: nutch抓取動態網頁  回復  更多評論   

          2012-03-09 17:06 by da
          ds
          主站蜘蛛池模板: 墨脱县| 韶关市| 大连市| 安庆市| 大足县| 永福县| 灌南县| 鹤山市| 达拉特旗| 尼木县| 比如县| 甘泉县| 廊坊市| 鄂尔多斯市| 孝感市| 盐边县| 扶余县| 鸡泽县| 运城市| 乌鲁木齐县| 攀枝花市| 景洪市| 宝鸡市| 渑池县| 无棣县| 抚远县| 定日县| 琼结县| 长治市| 合水县| 台前县| 梨树县| 株洲市| 噶尔县| 中西区| 民和| 泸西县| 两当县| 游戏| 耒阳市| 巨野县|