泰仔在線

          java學(xué)習(xí),心情日記,繽紛時(shí)刻
          posts - 100, comments - 34, trackbacks - 0, articles - 0
          解決搜索動(dòng)態(tài)內(nèi)容的問(wèn)題:
          需要注意在conf下面的2個(gè)文件:regex-urlfilter.txt,crawl-urlfilter.txt
          # skip URLs containing certain characters as probable queries, etc.
          -[?*!@=] (-改+)
          這段意思是跳過(guò)在連接中存在? * ! @ = 的頁(yè)面,因?yàn)槟J(rèn)是跳過(guò)所以,在動(dòng)態(tài)頁(yè)中存在?一般按照默認(rèn)的是不能抓取到的??梢栽谏厦?個(gè)文件中都修改成:
          # skip URLs containing certain characters as probable queries, etc.
          # -[?*!@=]
          另外增加允許的一行
          # accept URLs containing certain characters as probable queries, etc.
          +[?=&]
          意思是抓取時(shí)候允許抓取連接中帶 ? = & 這三個(gè)符號(hào)的連接
          注意:兩個(gè)文件都需要修改,因?yàn)镹UTCH加載規(guī)則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

          轉(zhuǎn)自:nutch抓取動(dòng)態(tài)網(wǎng)頁(yè)

          Feedback

          # re: nutch抓取動(dòng)態(tài)網(wǎng)頁(yè)  回復(fù)  更多評(píng)論   

          2012-03-09 17:06 by da
          ds
          主站蜘蛛池模板: 巴彦淖尔市| 宜州市| 红桥区| 广西| 武鸣县| 汪清县| 当阳市| 宜昌市| 宁河县| 前郭尔| 万盛区| 永胜县| 彭山县| 甘洛县| 新田县| 景德镇市| 凤凰县| 确山县| 北安市| 博湖县| 红河县| 固镇县| 河西区| 都江堰市| 青阳县| 大港区| 浦北县| 西贡区| 株洲市| 波密县| 湖州市| 井研县| 汽车| 公安县| 鹤山市| 陕西省| 历史| 游戏| 神池县| 东乌珠穆沁旗| 吉隆县|