莊周夢蝶

          生活、程序、未來
             :: 首頁 ::  ::  :: 聚合  :: 管理

          抽取網(wǎng)頁數(shù)據(jù)的不同思路

          Posted on 2007-11-22 12:35 dennis 閱讀(1159) 評論(1)  編輯  收藏 所屬分類: javamy open-source
              客戶要求從Internet上的網(wǎng)頁上抽取一定的數(shù)據(jù),用來顯示或者其他用戶,這個需求很常見。這兩天我們也遇到了這個需求,本來我一開始想是試用正則表達式去匹配需要的文本數(shù)據(jù),后來經(jīng)驗豐富的經(jīng)理給出了一個更好的思路,就是使用jtidy將不符合xhtml的HTML文件轉化成標準的xhtml文件——本質上就是XML文件,然后利用xsl抽取并轉換成我們所需要的數(shù)據(jù)的一定格式的xml文件。這樣做其實就是將XSL模板當正則表達式來用,不過更清晰,當網(wǎng)頁改變時也不需要重新編譯代碼,僅僅修改XSL模板就夠了。過程如下:
               html->xhtml--xsl-->數(shù)據(jù)xml

              做的過程中,初次使用了xsl,xpath等技術,網(wǎng)上找了不少好資料,共享下:
          jtidy: 

          思路來源
          http://www.ibm.com/developerworks/cn/xml/x-wbdm/

          項目地址
          http://jtidy.sourceforge.net/

          參考,解決中文問題使用
          http://www.aygfsteel.com/jhengfei/archive/2006/03/25/37312.html

          xsl,非常系統(tǒng)教程和實踐:

          http://www.cnblogs.com/goody9807/category/36016.html

          xpath:

          http://www.yesky.com/201/171201.shtml



          評論

          # re: 抽取網(wǎng)頁數(shù)據(jù)的不同思路  回復  更多評論   

          2009-08-29 16:45 by Fuller
          在我的gooseeker網(wǎng)站上有關于使用XSLT抽取網(wǎng)頁內(nèi)容的很多資料,我開發(fā)的網(wǎng)頁抓取/數(shù)據(jù)抽取軟件工具包MetaSeeker就是在客戶端用XSLT抽取網(wǎng)頁內(nèi)容的,軟件可下載
          主站蜘蛛池模板: 贡觉县| 庆安县| 澎湖县| 黑水县| 金堂县| 荥经县| 浏阳市| 墨脱县| 永丰县| 册亨县| 安远县| 景泰县| 启东市| 科技| 迭部县| 大化| 定日县| 阆中市| 潮州市| 吴川市| 涟水县| 买车| 蕲春县| 修水县| 青田县| 吉木乃县| 通江县| 莱阳市| 高台县| 苏州市| 莎车县| 济宁市| 甘洛县| 阿拉善左旗| 宜春市| 宝兴县| 赤水市| 仁布县| 马关县| 泸西县| 富源县|