已遷址

已遷址http://www.cnblogs.com/live365wang/

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

28 隨筆 :: 0 文章 :: 1 評論 :: 0 Trackbacks

<

2011年2月

>

日

一

二

三

四

五

六

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

常用鏈接

留言簿

隨筆分類

隨筆檔案

搜索

閱讀排行榜

評論排行榜

JSP各種亂碼的處理(一)

本文轉自四度空間

一、JSP頁面顯示亂碼

二、表單提交中文時出現亂碼

三、數據庫連接

大家在JSP的開發過程中，經常出現中文亂碼的問題，可能一至困擾著您，我現在把我在JSP開發中遇到

的中文亂碼的問題及解決辦法寫出來供大家參考。

一、JSP頁面顯示亂碼
下面的顯示頁面(display.jsp)就出現亂碼：
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<%
out.print("JSP的中文處理");
%>
</body>
</html>
對不同的WEB服務器和不同的JDK版本，處理結果就不一樣。原因：服務器使用的編碼方式不同和瀏覽器

對不同的字符顯示結果不同而導致的。解決辦法：在JSP頁面中指定編碼方式(gb2312),即在頁面的第一

行加上：<%@ page contentType="text/html; charset=gb2312"%>，就可以消除亂碼了。完整頁面如下

：
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

二、表單提交中文時出現亂碼
下面是一個提交頁面(submit.jsp)，代碼如下：
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<form name="form1" method="post" action="process.jsp">
<div align="center">
<input type="text" name="name">
<input type="submit" name="Submit" value="Submit">
</div>
</form>
</body>
</html>
下面是處理頁面(process.jsp)代碼：
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<%=request.getParameter("name")%>
</body>
</html>
如果submit.jsp提交英文字符能正確顯示，如果提交中文時就會出現亂碼。原因：瀏覽器默認使用UTF

-8編碼方式來發送請求，而UTF- 8和GB2312編碼方式表示字符時不一樣，這樣就出現了不能識別字符。

解決辦法:通過request.seCharacterEncoding ("gb2312")對請求進行統一編碼，就實現了中文的正常

顯示。修改后的process.jsp代碼如下：
<%@ page contentType="text/html; charset=gb2312"%>
<%
request.seCharacterEncoding("gb2312");
%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

三、數據庫連接出現亂碼
只要涉及中文的地方全部是亂碼，解決辦法：在數據庫的數據庫URL中加上
useUnicode=true&characterEncoding=GBK 就OK了。

四、數據庫的顯示亂碼
在mysql4.1.0中,varchar類型，text類型就會出現中文亂碼，對于varchar類型把它設為binary屬性就

可以解決中文問題，對于text類型就要用一個編碼轉換類來處理，實現如下：
public class Convert {

public static String ISOtoGB(String iso){
String gb;
try{
if(iso.equals("") || iso == null){
return "";
}
else{
iso = iso.trim();
gb = new String(iso.getBytes("ISO-8859-1"),"GB2312");
return gb;
}
}
catch(Exception e){
System.err.print("編碼轉換錯誤："+e.getMessage());
return "";
}
}
}
把它編譯成class，就可以調用Convert類的靜態方法ISOtoGB()來轉換編碼。

如果你還有什么不懂之處：我給大家推薦一個好的JSP-JAVA網站：

http://www.phy.hbnu.edu.cn/dsp/

總結：

1. 在jsp中<%@ page contentType="text/html; charset=A" %>如果指定了，那么在改jsp中所有構造

的String（不是引用），如果沒有指定編碼，那么這些String的編碼是A的。
從request的得到的String如果沒有指定request的編碼的話，他是iso-8859-1的
從別的地方得到的String是使用原來初始的編碼的，比如從數據庫得到String,如果數據庫的編碼

是B,那么該String的編碼是B而不是A的，也不是系統默認的。
此時，如果要輸出的String的編碼不是A,那么，很可能顯示亂碼的，所以首先要將String正確轉化

為編碼A的String,然后輸出。

2. 在jsp中<%@ page contentType="text/html; charset=A" %>沒有指定，那么相當于指定了<%@

page contentType="text/html; charset=ISO-8859-1" %>

3． Servelte中如果執行了像 response.setContentType("text/html;charset=A");説明將response的

字符輸出流編碼設置為A,所有要輸出的String的編碼要轉化為A的，否則會得到亂碼的。
Servelet中從request得到的String的編碼和jsp中一樣的，但是在servlet java文件中構造的

String是使用的系統默認的編碼的。在servelt中從外部得到的String 是使用原來的編碼的，比如從編

碼為B的數據庫得到的數據是編碼為B的,不是A,也不是系統默認的編碼。

//////////////////////////////////////////////////////////////////////////////////////////
轉載：JSP中文亂碼問題解決方法小結
在使用JSP的過程中，最使人頭疼的一個問題就是中文亂碼問題，以下是我在軟件開發中遇到的亂

碼問題以及解決方法。

1、JSP頁面亂碼
這種亂碼的原因是應為沒有在頁面里指定使用的字符集編碼，解決方法：只要在頁面開始地方用下

面代碼指定字符集編碼即可，

2、數據庫亂碼
這種亂碼會使你插入數據庫的中文變成亂碼，或者讀出顯示時也是亂碼，解決方法如下：
在數據庫連接字符串中加入編碼字符集
String Url="jdbc:mysql://localhost/digitgulf?

user=root&password=root&useUnicode=true&characterEncoding=GB2312";
并在頁面中使用如下代碼：
response.setContentType("text/html;charset=gb2312");
request.setCharacterEncoding("gb2312");

3、中文作為參數傳遞亂碼
當我們把一段中文字符作為參數傳遞個另一頁面時，也會出現亂碼情況，解決方法如下：
在參數傳遞時對參數編碼，比如
RearshRes.jsp?keywords=" + java.net.URLEncoder.encode(keywords)
然后在接收參數頁面使用如下語句接收
keywords=new String(request.getParameter("keywords").getBytes("8859_1"));

4、JSP頁面亂碼加這句
<%@ page contentType="text/html; charset=gb2312" language="java" import="java.sql.*"

errorPage="err.jsp" %>
/////////////////////////////////////////////////////////////////////////////////////////
JSP/JDBC MySQL亂碼問題~~~
作者：佚名來源：本站整理發布時間：2005-7-1 12:24:30
綠起：
JSP的request 默認為ISO8859_1，所以在處理中文的時候，
要顯示中文的話，必須轉成GBK的，如下
String str=new String(request.getParameter("name").getBytes("ISO8859-1"),"GBK");
out.println(str);
這樣就可以顯示中文了

MYSQL操作時的中文問題：
這個要看MySQL的默認編碼了，一般不調整的話為latin1其實和ISO8859_1一樣，所以操作的時候要處理

和他一致，不然就會亂碼的

1.插入中文：
String sql2="INSERT INTO test (name) VALUES('"+request.getParameter("name")+"')";
stmt.executeUpdate(sql2);
不用編碼就可以插入了

2.顯示插入的中文：
因為存入的是latin，所以顯示的時候就要GBK一下
String x=new String((rs.getString("title")).getBytes("ISO8859_1"),"GBK");
out.println(x);

3.設定存儲編碼：
當然在MySQL為latin1編碼時，也可以存的時候用GBK了
Connection con=DriverManager.getConnection("jdbc:mysql://localhost:3306/jsp?

useUnicode=true&characterEncoding=GBK","root","");
str1="中文";
String sql2="INSERT INTO test (name) VALUES('"+str1+"')";
這樣也可以很成功的插入了，呵呵
////////////////////////////////////////////////////////////////////////////////////////
JSP/Servlet 中的漢字編碼問題
（作者：張建芳，轉自IBM DeveloperWorks 中國網站　2001年04月18日 15:08）

　　網上就 JSP/Servlet 中 DBCS 字符編碼問題有許多優秀的文章和討論，本文對它們作一些整理，

并結合 IBM WebSphere Application Server 3.5（WAS）的解決方法作一些說明，希望它不是多余的。

1.問題的起源
每個國家（或區域）都規定了計算機信息交換用的字符編碼集，如美國的 ASCII，中國的 GB2312

-80，日本的 JIS 等，作為該國家/區域內信息處理的基礎，有著統一編碼的重要作用。字符編碼集按

長度分為 SBCS（單字節字符集），DBCS（雙字節字符集）兩大類。早期的軟件（尤其是操作系統），

為了解決本地字符信息的計算機處理，出現了各種本地化版本（L10N），為了區分，引進了 LANG，

Codepage 等概念。但是由于各個本地字符集代碼范圍重疊，相互間信息交換困難；軟件各個本地化版

本獨立維護成本較高。因此有必要將本地化工作中的共性抽取出來，作一致處理，將特別的本地化處理

內容降低到最少。這也就是所謂的國際化（I18N）。各種語言信息被進一步規范為 Locale 信息。處理

的底層字符集變成了幾乎包含了所有字形的 Unicode。

　　現在大部分具有國際化特征的軟件核心字符處理都是以 Unicode 為基礎的，在軟件運行時根據當

時的 Locale/Lang/Codepage 設置確定相應的本地字符編碼設置，并依此處理本地字符。在處理過程中

需要實現 Unicode 和本地字符集的相互轉換，甚或以 Unicode 為中間的兩個不同本地字符集的相互轉

換。這種方式在網絡環境下被進一步延伸，任何網絡兩端的字符信息也需要根據字符集的設置轉換成可

接受的內容。

　　Java 語言內部是用 Unicode 表示字符的，遵守 Unicode V2.0。Java 程序無論是從/往文件系統

以字符流讀/寫文件，還是往 URL 連接寫 HTML 信息，或從 URL 連接讀取參數值，都會有字符編碼的

轉換。這樣做雖然增加了編程的復雜度，容易引起混淆，但卻是符合國際化的思想的。

　　從理論上來說，這些根據字符集設置而進行的字符轉換不應該產生太多問題。而事實是由于應用程

序的實際運行環境不同，Unicode 和各個本地字符集的補充、完善，以及系統或應用程序實現的不規范

，轉碼時出現的問題時時困擾著程序員和用戶。

2.GB2312-80，GBK，GB18030-2000 漢字字符集
其實解決 JAVA 程序中的漢字編碼問題的方法往往很簡單，但理解其背后的原因，定位問題，還需

要了解現有的漢字編碼和編碼轉換。

　　GB2312-80 是在國內計算機漢字信息技術發展初始階段制定的，其中包含了大部分常用的一、二級

漢字，和 9 區的符號。該字符集是幾乎所有的中文系統和國際化的軟件都支持的中文字符集，這也是

最基本的中文字符集。其編碼范圍是高位0xa1－0xfe，低位也是 0xa1-0xfe；漢字從 0xb0a1 開始，結

束于 0xf7fe；

　　GBK 是 GB2312-80 的擴展，是向上兼容的。它包含了 20902 個漢字，其編碼范圍是 0x8140-

0xfefe，剔除高位 0x80 的字位。其所有字符都可以一對一映射到 Unicode 2.0，也就是說 JAVA 實際

上提供了 GBK 字符集的支持。這是現階段 Windows 和其它一些中文操作系統的缺省字符集，但并不是

所有的國際化軟件都支持該字符集，感覺是他們并不完全知道 GBK 是怎么回事。值得注意的是它不是

國家標準，而只是規范。隨著 GB18030-2000國標的發布，它將在不久的將來完成它的歷史使命。

　　GB18030-2000(GBK2K) 在 GBK 的基礎上進一步擴展了漢字，增加了藏、蒙等少數民族的字形。

GBK2K 從根本上解決了字位不夠，字形不足的問題。它有幾個特點：

　　●它并沒有確定所有的字形，只是規定了編碼范圍，留待以后擴充。

　　●編碼是變長的，其二字節部分與 GBK 兼容；四字節部分是擴充的字形、字位，其編碼范圍是首

字節 0x81-0xfe、二字節0x30-0x39、三字節 0x81-0xfe、四字節0x30-0x39。

　　●它的推廣是分階段的，首先要求實現的是能夠完全映射到 Unicode 3.0 標準的所有字形。

　　●它是國家標準，是強制性的。

　　現在還沒有任何一個操作系統或軟件實現了 GBK2K 的支持，這是現階段和將來漢化的工作內容。

3.JSP/Servlet 漢字編碼問題及在 WAS 中的解決辦法
3.1 常見的 encoding 問題的現象

　　網上常出現的 JSP/Servlet encoding 問題一般都表現在 browser 或應用程序端，如:

　　●瀏覽器中看到的 Jsp/Servlet 頁面中的漢字怎么都成了 ’?’ ?

　　●瀏覽器中看到的 Servlet 頁面中的漢字怎么都成了亂碼？

　　●JAVA 應用程序界面中的漢字怎么都成了方塊？

　　●Jsp/Servlet 頁面無法顯示 GBK 漢字。

　　●Jsp/Servlet 不能接收 form 提交的漢字。

　　●JSP/Servlet 數據庫讀寫無法獲得正確的內容。

　　隱藏在這些問題后面的是各種錯誤的字符轉換和處理（除第3個外，是因為 Java font 設置錯誤引

起的）。解決類似的字符 encoding 問題，需要了解 Jsp/Servlet 的運行過程，檢查可能出現問題的

各個點。

　　3.2 JSP/Servlet web 編程時的 encoding 問題

　　運行于Java 應用服務器的 JSP/Servlet 為 Browser 提供 HTML 內容，其過程如下圖所示：

其中有字符編碼轉換的地方有：

　　a.JSP 編譯。Java 應用服務器將根據 JVM 的 file.encoding 值讀取 JSP 源文件，并轉換為內部

字符編碼進行 JSP 編譯，生成 JAVA 源文件，根據 file.encoding 值寫回文件系統。如果當前系統語

言支持 GBK，那么這時候不會出現 encoding 問題。如果是英文的系統，如 LANG 是 en_US 的 Linux,

AIX 或 Solaris，則要將 JVM 的 file.encoding 值置成 GBK 。系統語言如果是 GB2312，則根據需要

，確定要不要設置 file.encoding，將 file.encoding 設為 GBK 可以解決潛在的 GBK 字符亂碼問題

。

　　b.Java 需要被編譯為 .class 才能在 JVM 中執行，這個過程存在與a.同樣的 file.encoding 問

題。從這里開始 servlet 和 jsp 的運行就類似了，只不過 Servlet 的編譯不是自動進行的。

　　c.Servlet 需要將 HTML 頁面內容轉換為 browser 可接受的 encoding 內容發送出去。依賴于各

JAVA App Server 的實現方式，有的將查詢 Browser 的 accept-charset 和 accept-language 參數或

以其它猜的方式確定 encoding 值，有的則不管。因此 constant-encoding 也許是最好的解決方法。

對于中文網頁，可在 JSP 或 Servlet 中設置 contentType="text/html; charset=GB2312"；如果頁面

中有GBK字符，則設置為contentType="text/html; charset=GBK"，由于IE 和 Netscape對GBK的支持程

度不一樣，作這種設置時需要測試一下。

　　因為16位 JAVA char在網絡傳送時高8位會被丟棄，也為了確保Servlet頁面中的漢字（包括內嵌的

和servlet運行過程中得到的）是期望的內碼，可以用 PrintWriter ōut=res.getWriter() 取代

ServletOutputStream ōut=res.getOutputStream(), PrinterWriter 將根據contentType中指定的

charset作轉換(ContentType需在此之前指定！);也可以用OutputStreamWriter封裝

ServletOutputStream 類并用write(String)輸出漢字字符串。

對于 JSP，JAVA Application Server 應當能夠確保在這個階段將嵌入的漢字正確傳送出去。

　　d.這是 URL 字符 encoding 問題。如果通過 get/post 方式從 browser 返回的值中包含漢字信息

， servlet 將無法得到正確的值。SUN的 J2SDK 中，HttpUtils.parseName 在解析參數時根本沒有考

慮 browser 的語言設置，而是將得到的值按 byte 方式解析。這是網上討論得最多的 encoding 問題

。因為這是設計缺陷，只能以 bin 方式重新解析得到的字符串；或者以 hack HttpUtils 類的方式解

決。參考文章 2、3 均有介紹，不過最好將其中的中文 encoding GB2312、 CP1381 都改為 GBK，否則

遇到 GBK 漢字時，還是會有問題。

　　Servlet API 2.3 提供一個新的函數 HttpServeletRequest.setCharacterEncoding 用于在調用

request.getParameter(“param_name”) 前指定應用程序希望的 encoding，這將有助于徹底解決這個

問題。

　　WebSphere Application Server 對標準的 Servlet API 2.x 作了擴展，提供較好的多語言支持。

上述c,d情況，WAS 都要查詢 Browser 的語言設置，在缺省狀況下zh、zh-cn 等均被映射為 JAVA

encoding CP1381（注意：CP1381 只是等同于 GB2312 的一個 codepage，沒有 GBK 支持）。這樣做我

想是因為無法確認 Browser 運行的操作系統是支持GB2312, 還是 GBK，所以取其小。但是實際的應用

系統還是要求頁面中出現 GBK 漢字，最著名的是朱總理名字中的“?”(rong2 ，0xe946，\u9555)，所

以有時還是需要將 Encoding/Charset 指定為 GBK。當然 WAS 中變更缺省的 encoding 沒有上面說的

那么麻煩，針對 a,b，參考文章 5 ），在 Application Server 的命令行參數中指定 -

Dfile.encoding=GBK 即可；針對 d，在 Application Server 的命令行參數中指定-

Ddefault.client.encoding=GBK。如果指定了-Ddefault.client.encoding=GBK，那么c情況下可以不再

指定charset。

　　3.3 數據庫讀寫時的 encoding 問題

　　JSP/Servlet 編程中經常出現 encoding 問題的另一個地方是讀寫數據庫中的數據。

　　流行的關系數據庫系統都支持數據庫 encoding，也就是說在創建數據庫時可以指定它自己的字符

集設置，數據庫的數據以指定的編碼形式存儲。當應用程序訪問數據時，在入口和出口處都會有

encoding 轉換。對于中文數據，應當保證數據的完整性。GB2312，GBK，UTF-8 等都是可選的數據庫

encoding；如果選擇 ISO8859-1(8-bit SBCS)，那么應用程序在寫數據之前須將 16Bit 的一個漢字或

Unicode 拆分成兩個 8-bit 的字符，讀數據之后則需將兩個字節合并起來，同時還有判別其中的 SBCS

字符。沒有充分利用數據庫 encoding 的作用，反而增加了編程的復雜度，ISO8859-1不是推薦的數據

庫 encoding。JSP/Servlet編程時，可以先用數據庫管理系統提供的功能檢查其中的中文數據是否正確

。

　　然后應當注意的是讀出來的數據的 encoding，JAVA 程序中一般得到的是 Unicode。寫數據時則相

反。

　　3.4 定位問題時常用的技巧

　　定位中文encoding問題通常采用最笨的也是最有效的辦法——在你認為有嫌疑的程序處理后打印字

符串的內碼。通過打印字符串的內碼，你可以發現什么時候中文字符被轉換成Unicode，什么時候

Unicode被轉回中文內碼，什么時候一個中文字成了兩個 Unicode 字符，什么時候中文字符串被轉成了

一串問號，什么時候中文字符串的高位被截掉了……

　　取用合適的樣本字符串也有助于區分問題的類型。如：”aa啊aa?aa” 等中英相間、GB、GBK特征

字符均有的字符串。一般來說，英文字符無論怎么轉換或處理，都不會失真（如果遇到了，可以嘗試著

增加連續的英文字母長度）。

4.結束語
其實 JSP/Servlet 的中文encoding 并沒有想像的那么復雜，雖然定位和解決問題沒有定規，各種

運行環境也各不盡然，但后面的原理是一樣的。了解字符集的知識是解決字符問題的基礎。不過，隨著

中文字符集的變化，不僅僅是 java 編程，中文信息處理中的問題還是會存在一段時間的。

5.參考文章
1) Character Problem Review
2) Java 編程技術中漢字問題的分析及解決
3) NLS Characters in WebSphere: SBCS/DBCS display on same page
4) GB18030
5) Setting language encoding in web applications: Websphere applications Server
作者簡介
張建芳，軟件工程師，畢業于北京理工大學計算機應用學院，有多年中文本地化經驗。您可通過

jfzhang@usa.net 與他聯系。

　/////////////////////////////////////////////////////////////////////////////////////　
關于jsp亂碼問題的解決。

1 最基本的亂碼問題。

這個亂碼問題是最簡單的亂碼問題。一般新會出現。就是頁面編碼不一致導致的亂碼。

<%@ page language="java" pageEncoding="UTF-8"%>

<%@ page contentType="text/html;charset=iso8859-1"%>

<html>

<head>

</head>

<body>

我是個好人

</body>

</html>

三個地方的編碼。

第一個地方的編碼格式為jsp文件的存儲格式。Eclipse會根據這個編碼格式保存文件。并編譯jsp文件

，包括里面的漢字。

第二處編碼為解碼格式。因為存為UTF-8的文件被解碼為iso8859-1，這樣如有中文肯定出亂碼。也就

是必須一致。而第二處所在的這一行，可以沒有。缺省也是使用iso8859-1的編碼格式。所以如果沒有

這一行的話，“我是個好人”也會出現亂碼。必須一致才可以。

第三處編碼為控制瀏覽器的解碼方式。如果前面的解碼都一致并且無誤的話，這個編碼格式沒有關系

。有的網頁出現亂碼，就是因為瀏覽器不能確定使用哪種編碼格式。因為頁面有時候會嵌入頁面，導致

瀏覽器混淆了編碼格式。出現了亂碼

posted on 2011-02-22 13:51 已遷址閱讀(155) 評論(0) 編輯收藏所屬分類: JSP

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: ckeditor編輯器jsp配置及屬性 JSP各種亂碼的處理(一) P各種亂碼的處理(二) JSP中的EL表達式詳細介紹 JSP 修改Tomcat配置文件解決中文編碼問題！

已遷址

常用鏈接

留言簿

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜