莊周夢蝶

          生活、程序、未來
             :: 首頁 ::  ::  :: 聚合  :: 管理

          抽取網(wǎng)頁數(shù)據(jù)的不同思路

          Posted on 2007-11-22 12:35 dennis 閱讀(1158) 評論(1)  編輯  收藏 所屬分類: javamy open-source
              客戶要求從Internet上的網(wǎng)頁上抽取一定的數(shù)據(jù),用來顯示或者其他用戶,這個需求很常見。這兩天我們也遇到了這個需求,本來我一開始想是試用正則表達(dá)式去匹配需要的文本數(shù)據(jù),后來經(jīng)驗豐富的經(jīng)理給出了一個更好的思路,就是使用jtidy將不符合xhtml的HTML文件轉(zhuǎn)化成標(biāo)準(zhǔn)的xhtml文件——本質(zhì)上就是XML文件,然后利用xsl抽取并轉(zhuǎn)換成我們所需要的數(shù)據(jù)的一定格式的xml文件。這樣做其實就是將XSL模板當(dāng)正則表達(dá)式來用,不過更清晰,當(dāng)網(wǎng)頁改變時也不需要重新編譯代碼,僅僅修改XSL模板就夠了。過程如下:
               html->xhtml--xsl-->數(shù)據(jù)xml

              做的過程中,初次使用了xsl,xpath等技術(shù),網(wǎng)上找了不少好資料,共享下:
          jtidy: 

          思路來源
          http://www.ibm.com/developerworks/cn/xml/x-wbdm/

          項目地址
          http://jtidy.sourceforge.net/

          參考,解決中文問題使用
          http://www.aygfsteel.com/jhengfei/archive/2006/03/25/37312.html

          xsl,非常系統(tǒng)教程和實踐:

          http://www.cnblogs.com/goody9807/category/36016.html

          xpath:

          http://www.yesky.com/201/171201.shtml



          評論

          # re: 抽取網(wǎng)頁數(shù)據(jù)的不同思路  回復(fù)  更多評論   

          2009-08-29 16:45 by Fuller
          在我的gooseeker網(wǎng)站上有關(guān)于使用XSLT抽取網(wǎng)頁內(nèi)容的很多資料,我開發(fā)的網(wǎng)頁抓取/數(shù)據(jù)抽取軟件工具包MetaSeeker就是在客戶端用XSLT抽取網(wǎng)頁內(nèi)容的,軟件可下載
          主站蜘蛛池模板: 贵定县| 闵行区| 临夏市| 开原市| 巴南区| 和顺县| 嘉定区| 青阳县| 大港区| 呼图壁县| 洱源县| 日喀则市| 京山县| 依兰县| 斗六市| 崇左市| 广西| 咸丰县| 固原市| 进贤县| 马龙县| 运城市| 濮阳市| 连山| 五大连池市| 泾川县| 视频| 巴林左旗| 磐安县| 汕头市| 鹤峰县| 济宁市| 宜州市| 太康县| 巩义市| 凤城市| 阿拉尔市| 米林县| 社旗县| 平湖市| 彭阳县|