Java心路

          Java、Eclipse、Ajax......一個(gè)都不能少

           

          提問:Heritrix抓取問題

          Heritrix應(yīng)用問題 請(qǐng)教一下大家如何用heritrix抓取以下網(wǎng)站內(nèi)容,需要定制么?

          下面是USPTO的專利網(wǎng)頁:
          http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits
          其中NextList1表示第一個(gè)50條信息的頁面,NextList2,NextList3,以此類推,在這些頁面中點(diǎn)擊每條超鏈接得到的是針對(duì)此條專利 信息的具體頁面,那么現(xiàn)在我如何設(shè)置heritrix,可以抓取到每頁50條,一共幾萬條的這些具體專利信息頁面到本地呢?另外可否抓取的同時(shí)將html 格式轉(zhuǎn)換偽txt格式到本地?謝謝高手指點(diǎn)!

          歡迎交流:
          qq:      173635235
          msn:    bisal1130@yahoo.com.cn
          email:  bill1130@gmail.com

          posted on 2008-07-10 08:35 bisal 閱讀(1063) 評(píng)論(1)  編輯  收藏

          評(píng)論

          # re: 提問:Heritrix抓取問題 2008-12-26 16:54 jackany

          我也學(xué)這個(gè)呢,真是頭大~  回復(fù)  更多評(píng)論   


          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           

          導(dǎo)航

          統(tǒng)計(jì)

          常用鏈接

          留言簿(4)

          隨筆檔案

          文章檔案

          相冊(cè)

          Java戰(zhàn)友兄弟

          常用技術(shù)交流平臺(tái)

          搜索

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          主站蜘蛛池模板: 余庆县| 宝清县| 历史| 哈密市| 桂林市| 秀山| 平谷区| 冀州市| 邹平县| 启东市| 抚顺市| 鹿邑县| 五河县| 满洲里市| 通州区| 榆林市| 诏安县| 财经| 濮阳县| 乌恰县| 灵川县| 新竹市| 自贡市| 喀什市| 会昌县| 贡觉县| 闵行区| 阳朔县| 三穗县| 黎城县| 宝清县| 应城市| 南充市| 同心县| 满城县| 定州市| 沁源县| 陕西省| 靖远县| 仁布县| 莱芜市|