使用 JTidy 協(xié)助抽取網(wǎng)頁(yè)內(nèi)容
摘要: Tidy 是 W3C 用來(lái)解析網(wǎng)頁(yè)的一個(gè)軟件包,可以方便地將 HTML 文檔轉(zhuǎn)換為符合 XML 標(biāo)準(zhǔn)的文檔,由于 XML 可以方便地使用 XSLT 技術(shù)對(duì)內(nèi)容進(jìn)行抽取,所以使用 Tidy 配合 XSLT 可以方便地將各種網(wǎng)頁(yè)的內(nèi)容抽取出來(lái),保存成我們需要的格式。
閱讀全文