Change Dir

先知cd——熱愛生活是一切藝術(shù)的開始

導(dǎo)航

<

2011年4月

>

日

一

二

三

四

五

六

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

公告

寫下來的都是資源，分享給互聯(lián)網(wǎng)~~均屬原創(chuàng)隨筆。
轉(zhuǎn)載引用請注明作者changedi。
喜歡應(yīng)用研究，熱愛編程，歡迎交流。

隨筆分類(125)

隨筆檔案(123)

統(tǒng)計

隨筆 - 222
文章 - 0
評論 - 182
引用 - 0

留言簿(18)

積分與排名

積分 - 421210
排名 - 132

閱讀排行榜

評論排行榜

JTidy的一些小tips

今天看了一下JTidy的使用，目的就是為了格式化一個不標(biāo)準(zhǔn)的html到標(biāo)準(zhǔn)的xhtml。

JTidy是一個用java寫的HTML語法檢查器，用JTidy可以檢查并修正語法不正確的html，同時還可以對html的DOM進(jìn)行分析。Xhtml和html有很多不同，其中幾個主要的區(qū)別是：

1. XHTML元素必須被正確的嵌套。

2. XHTML元素必須被關(guān)閉。

3. 標(biāo)簽名必須用小寫字幕。

4. XHTML文檔必須有根元素。

想想這些限制也不無道理，這樣的限制可以將html格式化為格式嚴(yán)謹(jǐn)?shù)?/span>xml。

JTidy的使用也非常簡單，短短的幾行代碼就可以實現(xiàn)從原html到格式化好的xhtml：

1

Tidy tidy = new Tidy();
2

3

try {
4

FileInputStream fis = new FileInputStream(
5

"D:\\Program Files\\Apache Software Foundation\\Tomcat 6.0\\webapps\\ROOT\\test2.html");
6

InputStreamReader isr = new InputStreamReader(fis,"gb2312");
7

OutputStream fos = new FileOutputStream(
8

"D:\\Program Files\\Apache Software Foundation\\Tomcat 6.0\\webapps\\ROOT\\test2XHTML.html");
9

OutputStreamWriter osw = new OutputStreamWriter(fos,"gb2312");
10

Document doc = tidy.parseDOM(isr, osw);
11

File tmpFile = new File(outFileName);
12

if(tmpFile.length()==0)
13

tidy.pprint(doc, out0);
14

// 轉(zhuǎn)換完成
15

} catch (java.io.FileNotFoundException e) {
16

System.out.println(e.getMessage());
17

} catch (UnsupportedEncodingException e) {
18

// TODO Auto-generated catch block
19

e.printStackTrace();
20

其中有幾個問題需要說明一下。理論上，在定義了tidy對象后，調(diào)用tidy.parse(in,out)或者tidy.parseDOM(in,out)就可以完成對輸入的格式化，將其輸出到輸出流上。Parse返回一個Node，而parseDOM返回一個Document。如果直接用InputStream和OutputStream，那么對于編碼的控制上，一般只能在tidy中控制了，而Tidy的內(nèi)置編碼中，簡體中文沒有設(shè)置。用起來不方便。如何實現(xiàn)中文頁面輸入，中文頁面產(chǎn)出是一個問題，網(wǎng)上提出了一種解決方法，通過利用生成一個中間UTF-8文件，在將其轉(zhuǎn)到輸出流上，可以完成中文的輸入。另一種實現(xiàn)就是利用最新的JTidy實現(xiàn)了parse(reader,writer)方法。因為支持reader和writer，所以可以像上面的代碼一樣，在包裝輸入流和輸出流的時候，進(jìn)行編碼的設(shè)定。這樣可以利用很短的代碼完成中文亂碼問題的解決，同時在效率上也要高于生成中間文件的方法。

至于在完成parse后的一個臨時文件的作用是在實踐中，發(fā)現(xiàn)有時候會遇到JTidy完成parse后document對象存在，但是輸出流沒有東西。需要調(diào)用pprint才會將其輸出。而什么時候調(diào)用pprint，我想到的方法就是判斷輸出文件是否為0.目前的情況就是要么輸出文件，但是空，即長度為0，要么完成了格式化，能正確輸出。因此，加一個if判斷可以解決通用的情況。

posted on 2011-04-19 21:33 changedi 閱讀(1973) 評論(0) 編輯收藏所屬分類: Java技術(shù)

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 該如何良好的實踐Java中的Exception機(jī)制如何高效的實現(xiàn)一個計數(shù)器map HBase的一些應(yīng)用設(shè)計tip HBase一些tip JVM學(xué)習(xí)筆記（3）——連接模型（上） JVM學(xué)習(xí)筆記（2）——類型生命周期 JVM學(xué)習(xí)筆記（1）——java class JVM學(xué)習(xí)筆記（0）——JVM一把抓服務(wù)器端的推分享一個LRUMap的實現(xiàn)——來自apache common-collections框架