莊周夢(mèng)蝶

生活、程序、未來(lái)

:: 首頁(yè) :: :: :: 聚合

抽取網(wǎng)頁(yè)數(shù)據(jù)的不同思路

Posted on 2007-11-22 12:35 dennis 閱讀(1159) 評(píng)論(1) 編輯收藏所屬分類: java 、my open-source

    客戶要求從Internet上的網(wǎng)頁(yè)上抽取一定的數(shù)據(jù)，用來(lái)顯示或者其他用戶，這個(gè)需求很常見(jiàn)。這兩天我們也遇到了這個(gè)需求，本來(lái)我一開(kāi)始想是試用正則表達(dá)式去匹配需要的文本數(shù)據(jù)，后來(lái)經(jīng)驗(yàn)豐富的經(jīng)理給出了一個(gè)更好的思路，就是使用jtidy將不符合x(chóng)html的HTML文件轉(zhuǎn)化成標(biāo)準(zhǔn)的xhtml文件——本質(zhì)上就是XML文件，然后利用xsl抽取并轉(zhuǎn)換成我們所需要的數(shù)據(jù)的一定格式的xml文件。這樣做其實(shí)就是將XSL模板當(dāng)正則表達(dá)式來(lái)用，不過(guò)更清晰，當(dāng)網(wǎng)頁(yè)改變時(shí)也不需要重新編譯代碼，僅僅修改XSL模板就夠了。過(guò)程如下：
     html->xhtml--xsl-->數(shù)據(jù)xml

    做的過(guò)程中，初次使用了xsl,xpath等技術(shù)，網(wǎng)上找了不少好資料，共享下：
jtidy:

思路來(lái)源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/

項(xiàng)目地址
http://jtidy.sourceforge.net/

參考，解決中文問(wèn)題使用
http://www.aygfsteel.com/jhengfei/archive/2006/03/25/37312.html

xsl,非常系統(tǒng)教程和實(shí)踐:

http://www.cnblogs.com/goody9807/category/36016.html

xpath:

http://www.yesky.com/201/171201.shtml

評(píng)論

# re: 抽取網(wǎng)頁(yè)數(shù)據(jù)的不同思路 回復(fù) 更多評(píng)論

2009-08-29 16:45 by Fuller

在我的gooseeker網(wǎng)站上有關(guān)于使用XSLT抽取網(wǎng)頁(yè)內(nèi)容的很多資料，我開(kāi)發(fā)的網(wǎng)頁(yè)抓取/數(shù)據(jù)抽取軟件工具包MetaSeeker就是在客戶端用XSLT抽取網(wǎng)頁(yè)內(nèi)容的，軟件可下載

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: 分布式消息中間件Metaq發(fā)布1.4.2 Java程序員常用工具集淘寶開(kāi)源metaq的python客戶端 xmemcached發(fā)布1.3.6 淘寶開(kāi)源MQ——metamorphosis的github分支 storm常見(jiàn)問(wèn)題解答 Storm源碼淺析之topology的提交 Yahoo! s4和Twitter storm的粗略比較緊急發(fā)布xmemcached 1.3.5 UniqTask for android