蜜乳av一区,亚洲视频成人,中文在线资源在线

JSP頁面編碼問題研究

Motivition

曾經有一個網友問過我這樣一個問題：

<%@page contentType="text/html; charset=UTF-8"%>

<html>

<head>

</head>

<body>

中國

</body>

</html>

這個頁面在為什么在運行的時候“中國”會變成亂碼？

Analysis

Key Step

對于上面問題的分析需要從整個JSP頁面請求的生命周期來看，一般的都需要經歷下面幾個階段：

1。應用服務器根據JSP頁面生成一個Java文件

2。應用服務器調用java.exe將Java文件編譯成一個Servlet對應的class文件

3。用戶的瀏覽器請求JSP對應的Servlet，Web容器起一個線程執行Servlet，將數據返回給客戶端瀏覽器

4。用戶的IE根據返回的數據，將結果顯示給用戶。

Key Step Analysis

為了更好的了解編碼問題，我們暫時先從上面的四個環節一步步來分析，根據分析的結果，來得到最終的解決辦法。

1．在應用服務器根據JSP頁面生成Java文件階段。

應用服務器會將整個JSP頁面的代碼讀取出來，然后寫到一個新的JAVA文件中，在讀文件和寫文件的時候都牽涉到一個編碼問題，這個編碼問題應用服務器是如何解決的呢？我研究Tomcat應用服務器的源代碼，發現Tomcat中有一個pageEncoding參數非常重要，在ParserController會從JSP文件中讀出這個參數（如果沒有讀到，就從第一行的contentType中讀取charset），然后保存起來，如果沒有讀取到這個參數，會從JspConfig中讀出一個默認的PageEncoding參數,如果這兩個參數都沒有的設置，系統會默認成ISO8859-1的編碼來讀取原來的JSP文件。

從上面的分析出，我們已經基本了解了應用服務器讀取JSP文件的編碼方式，由于Java底層都是基于Unicode編碼來存儲字符的，所以在寫文件的時候，都輸出成Unicode編碼的形式。

2。在JDK將Java文件編譯成Class文件的時候

可以利用-encoding參數指定源文件的編碼，這在手動編譯的時候非常重要，因為這決定了Java虛擬機讀取Java文件時采用的編碼方式，但是在Web應用中這個環節我們可以忽略，因為應用服務器可以很好的解決這個編碼。以Tomcat為例，由于生成的java文件是固定的UTF-8編碼，所以Tomcat也固定的采用UTF-8編碼來讀取，通過瀏覽AbstractCatalinaTask可以看到reader = new InputStreamReader(hconn.getInputStream(), CHARSET);其中的CHARSET=utf-8。所以在這個環節中應用服務器都可以很好的把握，不會帶來編碼問題。

3．用戶的瀏覽器請求JSP對應的Servlet階段。

如果前面的環節中不會帶來編碼問題，也就是說在Java虛擬機中運行的時候，能正常的獲取到“中國”，那么在執行servlet的環節中不會“中國”始終是以Unicode存儲的中國，那么在第三個環節中需要關注的是JspWriter如何將數據返回給客戶端瀏覽器。大家可以試驗一下，在java中如果用new String(str.getBytes("encoding"),"encoding")執行的時候，始終不會出現亂碼問題，也就是說，一個字符串可以用不同的代碼來getBytes()生成字節數組（底層I18N.jar所作的工作，提供Byte2Char和Char2Byte的轉換）。

如果大家可以理解這一點，那么下面大家就需要了解JspWriter輸出字符串時采用的編碼方式是什么？通過瀏覽Response.java類可以了解到Tomcat應用服務器是根據contentType來獲取的writer的編碼方式，也就是說，最后返回客戶端的字節流是contentType對應的charset中獲取出來的字節數組。

4． IE根據返回的數據處理顯示階段

通過前面的分析可以了解到，應用服務器返回的“中國”是根據ContentType中的charset來顯示的，只要IE知道該用這個編碼來接收字節流并轉成字符串，并將用戶的瀏覽器推薦合適的編碼來查看結果，用戶就可以瀏覽到正確的“中國”兩個字。可以高興得是，目前的IE等瀏覽器正式這樣處理的。

Conclusion

通過上面的分析，我們可以看到，在整個JSP頁面的編碼過程中，我們真正要解決的是JSP文件到Java文件這個過程中的編碼問題，也就是PageEncoding參數的設置問題。由于pageEncoding參數是servlet2.3規范中規定的參數，所以下面的方法在很多應用服務器下面都通用，這方面的設置本人在工作中基本上得到了下面的一些方法：

1。在JSP頁面的中加上pageEncoding參數，比如：<%@ page contentType="text/html; charset=UTF-8" pageEncoding="GBK"%>，這樣就可以將頁面可以用ANSI來存儲。也就是說當頁面存儲的編碼方式和chtentType中的charset不一樣的時候，可以考慮加上pageEncoding參數。

2。有些應用服務器（如weblogic），在沒有獲取到pageEncoding參數的時候，不是先從charset中獲取編碼類型，而是從另外的一些配置文件，如weblogic.xml文件中加上下面的代碼：

<jsp-descriptor>

<jsp-param>

<param-name>compilerSupports</param-name>

<param-value>true</param-value>

</jsp-param>

<jsp-param>

<param-name>encoding</param-name>

<param-value>GBK</param-value>

</jsp-param>

</jsp-descriptor>

（在Tomcat5X種也有類似的處理，在應用的web.xml文件中加上類似下面的配置項）

</jsp-config>

<jsp-property-group>

<url-pattern>*.jsp</url-pattern>

<el-ignored>true</el-ignored>

</jsp-property-group>

</jsp-config>

以上是對JSP頁面編碼的一些分析和處理方法，希望能對大家今后的學習和工作中有幫助！

posted on 2006-01-21 13:48 點滴鑄就輝煌閱讀(147) 評論(0) 編輯收藏所屬分類: 技術點滴

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 深入淺出學習正則表達式編寫安全的Java代碼有關MySQL的數據同步備份復制問題 SQL語句優化的原則基于struts+spring+ibatis的輕量級J2EE開發 HTTP請求頭所包含的信息用 Lucene 加速 Web 搜索應用程序的開發 JAVA EXCEL API 字符，字節和編碼 java 5.0 新特性

導航

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

收藏夾

java網址

別處看到的BLOG

牛人怪客

搜索

最新評論

閱讀排行榜

評論排行榜

Motivition

Analysis

Key Step

Key Step Analysis

Conclusion