我的蛋殼

          倡導(dǎo)自由、開放、分享的Java技術(shù)社區(qū) http://www.javaread.com

           

          HtmlCleaner,Html解析專家


          通常互聯(lián)網(wǎng)上的HTML頁面都是不規(guī)則的,非結(jié)構(gòu)化的頁面。如果我們需要訪問或者抽取里面的內(nèi)容的話,我們需要分析HTML頁面,去除垃圾。
          而最近新發(fā)布的 HtmlCleaner 就是這樣一個(gè)工具. 能夠幫助我們將HTML 文檔 轉(zhuǎn)化為結(jié)構(gòu)化的XML文檔。雖然目前已經(jīng)有了類似這樣的工具,但是HtmlCleaner 能夠完成幾乎所有的HTML轉(zhuǎn)換,而且不到30k,這是他們值得稱道的地方。

          HtmlCleaner是一個(gè)開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉(zhuǎn)換web上的HTML到標(biāo)準(zhǔn)的XML,重新排序每個(gè)元素,然后生成結(jié)構(gòu)良好(Well-Formed)XML文檔。默認(rèn)它遵循的規(guī)則是類似于大部份web瀏覽器為創(chuàng)文檔對象模型所使用的規(guī)則。然后,用戶可以提供自定義tag和規(guī)則組來進(jìn)行過濾和匹配。它被設(shè)計(jì)的小,快速,靈活而且獨(dú)立。HtmlCleaner也可用在Java代碼中,當(dāng)命令行工具或Ant任務(wù)。 解析后編程輕量級文檔對象,能夠很容易的被轉(zhuǎn)換到DOM或者JDom標(biāo)準(zhǔn)文檔,或者通過各種方式(壓縮,打印)連續(xù)輸出XML

          新版本的重要功能更新包括:
          1.HtmlCleaner的文檔對象模型現(xiàn)在擁有了一些函數(shù),處理節(jié)點(diǎn)和屬性,所以現(xiàn)在在序列化之前搜索或者編輯是非常容易的。
          2.提供基本HtmlCleaner DOMXPath支持
          3.使用XML配置溫江讓創(chuàng)建定制tag變得更加容易
          4.修復(fù)多個(gè)bug以及API改進(jìn)

          更多詳細(xì)信息:HTML Parser工具HtmlCleaner 2.0發(fā)布



          本文作者:javaread.com

          posted on 2008-07-17 10:06 javaread.com 閱讀(4120) 評論(6)  編輯  收藏

          評論

          # re: HtmlCleaner,Html解析專家 2008-07-17 10:51 大水牛

          昨天試了,感覺還不錯(cuò)  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 11:25 BeanSoft

          呵呵 就知道把鏈接都鏈到你的網(wǎng)站去 變相廣告太多了就不太好了  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 11:40 kenlee14

          我可不管那么多,內(nèi)容對我有用就行了。以前都用htmlparser來解析網(wǎng)頁,試試這個(gè)東東看看再說。
          嘿嘿,不好再回來踩你。  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 12:20 隔葉黃鶯

          以前用 htmlparser 就是碰到大部分都是不規(guī)則的 html 代碼,有些沒轍,這下好了,來了個(gè)新的搭檔,估計(jì)那些問題都好解決了,標(biāo)個(gè)記,以后需要用到時(shí)再回來。  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 12:42 很暴力

          建議你的javaread.com上面加個(gè)rss,東西不錯(cuò),我想訂閱下,無奈找不到rss訂閱地址啊。  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家[未登錄] 2010-04-14 18:53 小毅

          請問htmlCleaner 可以模擬 通過用戶名和密碼來登錄么?驗(yàn)證碼又怎么處理?  回復(fù)  更多評論   


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           

          導(dǎo)航

          統(tǒng)計(jì)

          常用鏈接

          留言簿(3)

          隨筆檔案

          Java

          友情鏈接

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 梁河县| 务川| 东城区| 天镇县| 西畴县| 和龙市| 普陀区| 阿城市| 府谷县| 太白县| 黎平县| 上犹县| 宜昌市| 彭阳县| 丹凤县| 海安县| 九龙城区| 清新县| 巴青县| 安徽省| 上饶市| 北辰区| 丰县| 壶关县| 忻州市| 子洲县| 青海省| 屯昌县| 麻城市| 城市| 呼和浩特市| 靖边县| 应城市| 湾仔区| 赣州市| 建始县| 贺兰县| 肃南| 寿光市| 阿克| 齐河县|