Java心路

          Java、Eclipse、Ajax......一個都不能少

           

          提問:Heritrix抓取問題

          Heritrix應(yīng)用問題 請教一下大家如何用heritrix抓取以下網(wǎng)站內(nèi)容,需要定制么?

          下面是USPTO的專利網(wǎng)頁:
          http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits
          其中NextList1表示第一個50條信息的頁面,NextList2,NextList3,以此類推,在這些頁面中點(diǎn)擊每條超鏈接得到的是針對此條專利 信息的具體頁面,那么現(xiàn)在我如何設(shè)置heritrix,可以抓取到每頁50條,一共幾萬條的這些具體專利信息頁面到本地呢?另外可否抓取的同時將html 格式轉(zhuǎn)換偽txt格式到本地?謝謝高手指點(diǎn)!

          歡迎交流:
          qq:      173635235
          msn:    bisal1130@yahoo.com.cn
          email:  bill1130@gmail.com

          posted on 2008-07-10 08:35 bisal 閱讀(1068) 評論(1)  編輯  收藏

          評論

          # re: 提問:Heritrix抓取問題 2008-12-26 16:54 jackany

          我也學(xué)這個呢,真是頭大~  回復(fù)  更多評論   


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           

          導(dǎo)航

          統(tǒng)計(jì)

          常用鏈接

          留言簿(4)

          隨筆檔案

          文章檔案

          相冊

          Java戰(zhàn)友兄弟

          常用技術(shù)交流平臺

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 凉城县| 栾城县| 洞头县| 通州市| 南城县| 沿河| 台江县| 盐山县| 东阿县| 哈尔滨市| 延长县| 竹北市| 清水河县| 田东县| 崇阳县| 禄丰县| 湖南省| 年辖:市辖区| 尤溪县| 张北县| 麻阳| 工布江达县| 雅安市| 南乐县| 朔州市| 加查县| 宁国市| 依兰县| 武乡县| 文山县| 嘉兴市| 乌恰县| 灯塔市| 鄯善县| 罗江县| 安宁市| 榆社县| 南和县| 遂昌县| 沂南县| 六安市|