我的蛋殼

          倡導(dǎo)自由、開放、分享的Java技術(shù)社區(qū) http://www.javaread.com

           

          HtmlCleaner,Html解析專家


          通常互聯(lián)網(wǎng)上的HTML頁面都是不規(guī)則的,非結(jié)構(gòu)化的頁面。如果我們需要訪問或者抽取里面的內(nèi)容的話,我們需要分析HTML頁面,去除垃圾。
          而最近新發(fā)布的 HtmlCleaner 就是這樣一個工具. 能夠幫助我們將HTML 文檔 轉(zhuǎn)化為結(jié)構(gòu)化的XML文檔。雖然目前已經(jīng)有了類似這樣的工具,但是HtmlCleaner 能夠完成幾乎所有的HTML轉(zhuǎn)換,而且不到30k,這是他們值得稱道的地方。

          HtmlCleaner是一個開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉(zhuǎn)換web上的HTML到標準的XML,重新排序每個元素,然后生成結(jié)構(gòu)良好(Well-Formed)XML文檔。默認它遵循的規(guī)則是類似于大部份web瀏覽器為創(chuàng)文檔對象模型所使用的規(guī)則。然后,用戶可以提供自定義tag和規(guī)則組來進行過濾和匹配。它被設(shè)計的小,快速,靈活而且獨立。HtmlCleaner也可用在Java代碼中,當命令行工具或Ant任務(wù)。 解析后編程輕量級文檔對象,能夠很容易的被轉(zhuǎn)換到DOM或者JDom標準文檔,或者通過各種方式(壓縮,打印)連續(xù)輸出XML

          新版本的重要功能更新包括:
          1.HtmlCleaner的文檔對象模型現(xiàn)在擁有了一些函數(shù),處理節(jié)點和屬性,所以現(xiàn)在在序列化之前搜索或者編輯是非常容易的。
          2.提供基本HtmlCleaner DOMXPath支持
          3.使用XML配置溫江讓創(chuàng)建定制tag變得更加容易
          4.修復(fù)多個bug以及API改進

          更多詳細信息:HTML Parser工具HtmlCleaner 2.0發(fā)布



          本文作者:javaread.com

          posted on 2008-07-17 10:06 javaread.com 閱讀(4123) 評論(6)  編輯  收藏

          評論

          # re: HtmlCleaner,Html解析專家 2008-07-17 10:51 大水牛

          昨天試了,感覺還不錯  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 11:25 BeanSoft

          呵呵 就知道把鏈接都鏈到你的網(wǎng)站去 變相廣告太多了就不太好了  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 11:40 kenlee14

          我可不管那么多,內(nèi)容對我有用就行了。以前都用htmlparser來解析網(wǎng)頁,試試這個東東看看再說。
          嘿嘿,不好再回來踩你。  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 12:20 隔葉黃鶯

          以前用 htmlparser 就是碰到大部分都是不規(guī)則的 html 代碼,有些沒轍,這下好了,來了個新的搭檔,估計那些問題都好解決了,標個記,以后需要用到時再回來。  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家 2008-07-17 12:42 很暴力

          建議你的javaread.com上面加個rss,東西不錯,我想訂閱下,無奈找不到rss訂閱地址啊。  回復(fù)  更多評論   

          # re: HtmlCleaner,Html解析專家[未登錄] 2010-04-14 18:53 小毅

          請問htmlCleaner 可以模擬 通過用戶名和密碼來登錄么?驗證碼又怎么處理?  回復(fù)  更多評論   


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           

          導(dǎo)航

          統(tǒng)計

          常用鏈接

          留言簿(3)

          隨筆檔案

          Java

          友情鏈接

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 新民市| 丰城市| 通许县| 板桥市| 内丘县| 昌图县| 茶陵县| 城固县| 盘锦市| 宁波市| 班戈县| 金昌市| 武川县| 西城区| 游戏| 寿阳县| 鸡东县| 长岭县| 什邡市| 黄平县| 西平县| 南康市| 高淳县| 关岭| 大竹县| 北宁市| 万荣县| 防城港市| 晋宁县| 太仆寺旗| 赞皇县| 射阳县| 玛纳斯县| 虞城县| 昌都县| 同心县| 诏安县| 清水县| 称多县| 新宁县| 城口县|