莊周夢(mèng)蝶

          生活、程序、未來(lái)
             :: 首頁(yè) ::  ::  :: 聚合  :: 管理
              客戶要求從Internet上的網(wǎng)頁(yè)上抽取一定的數(shù)據(jù),用來(lái)顯示或者其他用戶,這個(gè)需求很常見(jiàn)。這兩天我們也遇到了這個(gè)需求,本來(lái)我一開(kāi)始想是試用正則表達(dá)式去匹配需要的文本數(shù)據(jù),后來(lái)經(jīng)驗(yàn)豐富的經(jīng)理給出了一個(gè)更好的思路,就是使用jtidy將不符合x(chóng)html的HTML文件轉(zhuǎn)化成標(biāo)準(zhǔn)的xhtml文件——本質(zhì)上就是XML文件,然后利用xsl抽取并轉(zhuǎn)換成我們所需要的數(shù)據(jù)的一定格式的xml文件。這樣做其實(shí)就是將XSL模板當(dāng)正則表達(dá)式來(lái)用,不過(guò)更清晰,當(dāng)網(wǎng)頁(yè)改變時(shí)也不需要重新編譯代碼,僅僅修改XSL模板就夠了。過(guò)程如下:
               html->xhtml--xsl-->數(shù)據(jù)xml

              做的過(guò)程中,初次使用了xsl,xpath等技術(shù),網(wǎng)上找了不少好資料,共享下:
          jtidy: 

          思路來(lái)源
          http://www.ibm.com/developerworks/cn/xml/x-wbdm/

          項(xiàng)目地址
          http://jtidy.sourceforge.net/

          參考,解決中文問(wèn)題使用
          http://www.aygfsteel.com/jhengfei/archive/2006/03/25/37312.html

          xsl,非常系統(tǒng)教程和實(shí)踐:

          http://www.cnblogs.com/goody9807/category/36016.html

          xpath:

          http://www.yesky.com/201/171201.shtml



          評(píng)論

          # re: 抽取網(wǎng)頁(yè)數(shù)據(jù)的不同思路  回復(fù)  更多評(píng)論   

          2009-08-29 16:45 by Fuller
          在我的gooseeker網(wǎng)站上有關(guān)于使用XSLT抽取網(wǎng)頁(yè)內(nèi)容的很多資料,我開(kāi)發(fā)的網(wǎng)頁(yè)抓取/數(shù)據(jù)抽取軟件工具包MetaSeeker就是在客戶端用XSLT抽取網(wǎng)頁(yè)內(nèi)容的,軟件可下載
          主站蜘蛛池模板: 武胜县| 福安市| 嵊州市| 金乡县| 客服| 长顺县| 界首市| 登封市| 兰州市| 赤城县| 兴山县| 富川| 方正县| 延长县| 黄陵县| 宜兰市| 湾仔区| 曲麻莱县| 哈尔滨市| 龙井市| 铁岭市| 建平县| 稷山县| 高淳县| 镇沅| 房产| 长垣县| 乌拉特前旗| 天镇县| 大安市| 福海县| 登封市| 武定县| 漠河县| 苍山县| 垣曲县| 溧水县| 金华市| 宜昌市| 衡山县| 乐东|