泰仔在線

          java學(xué)習(xí),心情日記,繽紛時刻
          posts - 100, comments - 34, trackbacks - 0, articles - 0

          nutch抓取動態(tài)網(wǎng)頁

          Posted on 2010-04-24 19:06 泰仔在線 閱讀(2215) 評論(1)  編輯  收藏 所屬分類: 云計算相關(guān)
          解決搜索動態(tài)內(nèi)容的問題:
          需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
          # skip URLs containing certain characters as probable queries, etc.
          -[?*!@=] (-改+)
          這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認(rèn)是跳過所以,在動態(tài)頁中存在?一般按照默認(rèn)的是不能抓取到的??梢栽谏厦?個文件中都修改成:
          # skip URLs containing certain characters as probable queries, etc.
          # -[?*!@=]
          另外增加允許的一行
          # accept URLs containing certain characters as probable queries, etc.
          +[?=&]
          意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
          注意:兩個文件都需要修改,因為NUTCH加載規(guī)則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

          轉(zhuǎn)自:nutch抓取動態(tài)網(wǎng)頁

          Feedback

          # re: nutch抓取動態(tài)網(wǎng)頁  回復(fù)  更多評論   

          2012-03-09 17:06 by da
          ds
          主站蜘蛛池模板: 芦溪县| 勐海县| 稻城县| 高唐县| 忻州市| 深州市| 朝阳县| 武功县| 穆棱市| 姜堰市| 奉节县| 万源市| 会东县| 天等县| 澄迈县| 伊川县| 龙川县| 韶关市| 宝兴县| 开封县| 桐庐县| 海晏县| 柳州市| 榆社县| 卢湾区| 镇远县| 常州市| 罗定市| 辛集市| 平舆县| 乐东| 成武县| 黄龙县| 虎林市| 伊川县| 兴宁市| 小金县| 江口县| 五家渠市| 泰和县| 视频|