Java心路

          Java、Eclipse、Ajax......一個都不能少

           

          提問:Heritrix抓取問題

          Heritrix應(yīng)用問題 請教一下大家如何用heritrix抓取以下網(wǎng)站內(nèi)容,需要定制么?

          下面是USPTO的專利網(wǎng)頁:
          http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits
          其中NextList1表示第一個50條信息的頁面,NextList2,NextList3,以此類推,在這些頁面中點擊每條超鏈接得到的是針對此條專利 信息的具體頁面,那么現(xiàn)在我如何設(shè)置heritrix,可以抓取到每頁50條,一共幾萬條的這些具體專利信息頁面到本地呢?另外可否抓取的同時將html 格式轉(zhuǎn)換偽txt格式到本地?謝謝高手指點!

          歡迎交流:
          qq:      173635235
          msn:    bisal1130@yahoo.com.cn
          email:  bill1130@gmail.com

          posted on 2008-07-10 08:35 bisal 閱讀(1063) 評論(1)  編輯  收藏

          評論

          # re: 提問:Heritrix抓取問題 2008-12-26 16:54 jackany

          我也學(xué)這個呢,真是頭大~  回復(fù)  更多評論   


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           

          導(dǎo)航

          統(tǒng)計

          常用鏈接

          留言簿(4)

          隨筆檔案

          文章檔案

          相冊

          Java戰(zhàn)友兄弟

          常用技術(shù)交流平臺

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 宜州市| 靖宇县| 永修县| 启东市| 海晏县| 桃园县| 娱乐| 彩票| 红原县| 田林县| 土默特左旗| 罗甸县| 泌阳县| 郎溪县| 洛南县| 桑植县| 石嘴山市| 安阳市| 银川市| 平顺县| 潮安县| 肥乡县| 丽水市| 开江县| 裕民县| 萝北县| 宁国市| 德庆县| 宜州市| 札达县| 贵定县| 临沧市| 南宁市| 桂东县| 富阳市| 连城县| 同德县| 井冈山市| 宁国市| 洞头县| 玛曲县|