国产精品国产一区二区,亚洲视频免费在线,亚洲第一黄网

編碼問題1 轉

HTML：
    ……
    //實際上這里的charset=utf-8 也是可以的，因為在中文平臺下
    //用了GB2312


JS：
    我用了兩個方法提交：GET 和 POST。
    在服務器端要對應不同的提交方式轉換不同的編碼。
   ……
    //要傳遞的參數
   var queryString = "firstName=" + firstName + "&lastName=" + lastName
                          + "&birthday=" + birthday;    function

    //GET方式提交
    doRequestUsingGET() {
        createXMLHttpRequest();
        var url = "GetAndPostExample?" + queryString + "&timeStamp="
                          + new Date().getTime();
        xmlHttp.onreadystatechange = handleStateChange;
        xmlHttp.open("GET", url, true);
        xmlHttp.send(null);
    }

    //POST方式提交
    function doRequestUsingPOST() {
        createXMLHttpRequest();
        var url = "GetAndPostExample?timeStamp=" + new Date().getTime();
        xmlHttp.open("POST", url, true);
        xmlHttp.onreadystatechange = handleStateChange;
        xmlHttp.setRequestHeader("Content-type", "application/x-www-form-urlencoded");
        xmlHttp.send(queryString);
    }

servlet：
        response.setContentType("text/xml");

        //這個一定要設置，這里的設置應該跟HTML中的一樣，但是我在這里
        //用了 uft-8，結果也是一樣。
        response.setCharacterEncoding("GB2312");

        //當用POST方法時，一定要設置成utf-8，否則亂碼
        String firstName = new String(request.getParameter("firstName").getBytes("ISO-8859-1"), "utf-8");

        //當用GET方法時，要設置成GB2312，否則亂碼。
        String lastName = new String(request.getParameter("lastName").getBytes("ISO-8859-1"), "GB2312");

測試結果：
因為界面上兩個控件firstName 和 lastName都輸入中文。
接收xmlHttp.responseText后，會發現其中一個為亂碼，一個可以正常顯示中文。

-----------------------------------------------------------------------------------------------------------

這里的方案是頁面(page)是基于GBK(gb2312) 的編碼格式

AJAX的中文情況,默認情況下,tomcat和weblogic的get和post請求的編碼方案都不一樣,不過前提都是要設置 request.setCharactorEncoding("UTF-8")如下面代碼中,get方案是很煩瑣的那種將得到的參數重新編碼來實現的 |new String(request.getParameter("para name").getBytes("encoding name"))|而post方案是比較簡單而方便的,也提倡使用這種方式,因為可以基于filter來管理編碼
tomcat可以通過設置在 server.xml里的Connector元素下設置URIencoding="gbk"參數來讓get使用post的方案(即get和post都使用 request.setCharactorEncoding("UTF-8"),request.getParameter("para name") )具體設置參考http://www.javaeye.com/topic/131542,不過在weblogic下無解(我個人還沒發現如何實現), weblogic好像在解析get參數后自己又用什么編碼格式包裝過......其實AJAX get根本沒有普通請求get請求作為標簽的作用,我們完全可以不使用get,而只使用post

測試用的jsp和servlet在下面,丟到一個項目里,在web.xml里配置servlet后運行可以看到效果,servlet的url- pattern是這個<url-pattern>/GetAndPostExample</url-pattern>

getAndPostExample.jsp

代碼

<%@ page language="java" import="java.util.Date" contentType="text/html; charset=gbk"%>
<html>
<head>
<title>發送帶參數的信息到服務器，以及get,post的區別</title>
<script type="text/javascript">
var xmlHttp;
function show()
{
document.getElementById("show").value=document.getElementById("firstName").value;
}
function createXMLHttpRequest()
{
if (window.ActiveXObject)
xmlHttp = new ActiveXObject("Microsoft.XMLHTTP");
else if (window.XMLHttpRequest)
xmlHttp = new XMLhttpRequest();
}
function createQueryString()
{
var firstName = document.getElementById("firstName").value;
var secondName = document.getElementById("secondName").value;
var birthday = document.getElementById("birthday").value;
var queryString = "firstName="+firstName+"&secondName="+secondName
+"&birthday="+birthday;
return queryString;
}
function doRequestUsingGET()
{
createXMLHttpRequest();
show();
var queryString = "GetAndPostExample?";
queryStringqueryString = queryString + createQueryString()
+ "&timeStamep=" + new Date().getTime();
xmlHttp.onreadystatechange = handleStateChange;
xmlHttp.open("GET",queryString,true);
xmlHttp.setRequestHeader("RequestType","ajax");
xmlHttp.send(null);
//alert(queryString);
}
function doRequestUsingPOST()
{
createXMLHttpRequest();
show();
var url = "GetAndPostExample"
var queryString = createQueryString()+ "&timeStamp="+ new Date().getTime();
xmlHttp.open("POST",url,true);
xmlHttp.onreadystatechange = handleStateChange;
xmlHttp.setRequestHeader("Content-Type","application/x-www-form-urlencoded;");
//設置報頭,說明此請求是ajax請求
xmlHttp.setRequestHeader("RequestType","ajax");
xmlHttp.send(queryString);
}
function handleStateChange()
{
if (xmlHttp.readyState == 4)
{
if (xmlHttp.status == 200)
parseResults();
}
}
function parseResults()
{
var responseDiv = document.getElementById("serverResponse");
if (responseDiv.hasChildNodes())
{
responseDiv.removeChild(responseDiv.childNodes[0]);
}
var responseText = document.createTextNode(xmlHttp.responseText);
responseDiv.appendChild(responseText);
}
</script>
</head>
<body>
<h1>輸入你的姓，名，生日日期</h1>
<br>
<table>
<tr>
<td>
姓：
</td>
<td>
<input type="text" name="firstName" id="firstName" value="羽飛">
</td>
</tr>
<td>
名：
</td>
<td>
<input type="text" name="secondName" id="secondName" value="翼">
</td>
<tr>
</tr>
<tr>
<td>
生日：
</td>
<td>
<input type="text" name="birthday" id="birthday" value="五月">
</td>
<td>
<input type="text" name="show" id="show">
</td>
</tr>
</table>
<form action="#">
<input type="button" value="使用GET提交" onclick="doRequestUsingGET();">
<br>
<input type="button" value="使用POST提交" onclick="doRequestUsingPOST();">
</form>
<br>
<br>
<h2>服務器返回信息：</h2>
<div id="serverResponse">
</div>
</body>
</html>

GetAndPostExample.java

代碼

package yufei;
import java.io.*;
import java.net.*;
import javax.servlet.*;
import javax.servlet.http.*;
public class GetAndPostExample extends HttpServlet
{
protected void processRequest(HttpServletRequest request,
HttpServletResponse response, String method1)
throws ServletException,IOException
{
//設置文本類型(content type)
response.setContentType("text/xml");
//設置文本類型的編碼格式
response.setCharacterEncoding("GBK");
response.setHeader("Cache-Control","no-cache");
String firstName =null;
String secondName = null;
String birthday = null;
//無論是get還是post,都要使用下面這句
request.setCharacterEncoding("UTF-8");
if (method1.equals("GET"))
{
firstName = new String(request.getParameter("firstName").getBytes("ISO8859-1"));
secondName = new String(request.getParameter("secondName").getBytes("ISO8859-1"));
birthday = new String(request.getParameter("birthday").getBytes("ISO8859-1"));
}
else if (method1.equals("POST"))
{ firstName = request.getParameter("firstName");
secondName = request.getParameter("secondName");
birthday = request.getParameter("birthday");
}
String responseText = "Hello " + firstName + " " + secondName
+ " 你的生日是 " + birthday + " " + "(method: " + method1 + ")";
PrintWriter out = response.getWriter();
out.println(responseText);
out.close();
}
protected void doGet(HttpServletRequest request,
HttpServletResponse response)
throws ServletException,IOException
{
processRequest(request,response,"GET");
}
protected void doPost(HttpServletRequest request,
HttpServletResponse response)
throws ServletException,IOException
{
processRequest(request,response,"POST");
}
}

-
-

當我們的ajax請求只使用post(tomcat下可以實現get和post同樣方案)請求時,我們可以使用過濾器來實現其編碼設置,就可以把 servlet中的request.setCharactorEncoding提出來,去掉servlet里的 request.setCharactorEncoding("encoding name"),加入下面的過濾器
根據fins大大的指導,將過濾器重寫為可以區分普通請求和ajax請求的樣式了(ajax請求中設置了header)

SetCharacterEncodingFilter.java

代碼

package yufei;
import java.io.IOException;
import javax.servlet.FilterChain;
import javax.servlet.FilterConfig;
import javax.servlet.ServletException;
import javax.servlet.ServletRequest;
import javax.servlet.ServletResponse;
import javax.servlet.Filter;
import javax.servlet.http.HttpServletRequest;
public class CharactorEncodingFilter implements Filter
{
public CharactorEncodingFilter()
{
super();
}
private FilterConfig filterConfig;
private String ajaxEncoding = "UTF-8";
private String commonEncoding;
protected boolean ignore = true;
public void init(FilterConfig filterConfig) throws ServletException
{
this.filterConfig = filterConfig;
commonEncoding = filterConfig.getInitParameter("CommonRequestEncoding");
String value = filterConfig.getInitParameter("ignore");
if (value == null)
this.ignore = true;
else if (value.equalsIgnoreCase("true"))
this.ignore = true;
else if (value.equalsIgnoreCase("yes"))
this.ignore = true;
else
this.ignore = false;
}
public void doFilter(ServletRequest req, ServletResponse res,
FilterChain filterChain)
{
try
{
HttpServletRequest request = (HttpServletRequest) req;
if (ignore || (request.getCharacterEncoding() == null))
{
if (request.getHeader("RequestType") != null
&& request.getHeader("RequestType")
.equalsIgnoreCase("ajax"))
{
request.setCharacterEncoding(ajaxEncoding);
}
else if (commonEncoding != null)
{
request.setCharacterEncoding(commonEncoding);
}
else
{
request.setCharacterEncoding("UTF-8");
}
}
filterChain.doFilter(req, res);
}
catch (IOException e)
{
e.printStackTrace();
}
catch (ServletException e)
{
e.printStackTrace();
}
}
public void destroy()
{
this.commonEncoding = null;
this.filterConfig = null;
}
}

web.xml加入如下過濾器配置

代碼

<filter>
<filter-name>CharactorEncoding</filter-name>
<filter-class>org.apache.struts2.dispatcher.FilterDispatcher</filter-class>
<init-param>
<param-name>CommonRequestEncoding</param-name>
<param-value>GBK</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>CharactorEncoding</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>
---------------------------------------------------------------------------------------------------

字符，字節和編碼

[原創文章，轉載請保留或注明出處：http://www.regexlab.com/zh/encoding.htm]

級別：中級

摘要：本文介紹了字符與編碼的發展過程，相關概念的正確理解。舉例說明了一些實際應用中，編碼的實現方法。然后，本文講述了通常對字符與編碼的幾種誤解，由于這些誤解而導致亂碼產生的原因，以及消除亂碼的辦法。本文的內容涵蓋了“中文問題”，“亂碼問題”。

掌握編碼問題的關鍵是正確地理解相關概念，編碼所涉及的技術其實是很簡單的。因此，閱讀本文時需要慢讀多想，多思考。

引言

“字符與編碼”是一個被經常討論的話題。即使這樣，時常出現的亂碼仍然困擾著大家。雖然我們有很多的辦法可以用來消除亂碼，但我們并不一定理解這些辦法的內在原理。而有的亂碼產生的原因，實際上由于底層代碼本身有問題所導致的。因此，不僅是初學者會對字符編碼感到模糊，有的底層開發人員同樣對字符編碼缺乏準確的理解。

回頁首

1. 編碼問題的由來，相關概念的理解

1.1 字符與編碼的發展

從計算機對多國語言的支持角度看，大致可以分為三個階段：

	系統內碼	說明	系統
階段一	ASCII	計算機剛開始只支持英語，其它語言不能夠在計算機上存儲和顯示。	英文 DOS
階段二	ANSI編碼（本地化）	為使計算機支持更多語言，通常使用 0x80~0xFF 范圍的 2 個字節來表示 1 個字符。比如：漢字 '中' 在中文操作系統中，使用 [0xD6,0xD0] 這兩個字節存儲。不同的國家和地區制定了不同的標準，由此產生了 GB2312, BIG5, JIS 等各自的編碼標準。這些使用 2 個字節來代表一個字符的各種漢字延伸編碼方式，稱為 ANSI 編碼。在簡體中文系統下，ANSI 編碼代表 GB2312 編碼，在日文操作系統下，ANSI 編碼代表 JIS 編碼。不同 ANSI 編碼之間互不兼容，當信息在國際間交流時，無法將屬于兩種語言的文字，存儲在同一段 ANSI 編碼的文本中。	中文 DOS，中文 Windows 95/98，日文 Windows 95/98
階段三	UNICODE （國際化）	為了使國際間信息交流更加方便，國際組織制定了 UNICODE 字符集，為各種語言中的每一個字符設定了統一并且唯一的數字編號，以滿足跨語言、跨平臺進行文本轉換、處理的要求。	Windows NT/2000/XP，Linux，Java

字符串在內存中的存放方法：

在 ASCII 階段，單字節字符串使用一個字節存放一個字符（SBCS）。比如，"Bob123" 在內存中為：

42	6F	62	31	32	33	00

B	o	b	1	2	3	\0

在使用 ANSI 編碼支持多種語言階段，每個字符使用一個字節或多個字節來表示（MBCS），因此，這種方式存放的字符也被稱作多字節字符。比如，"中文123" 在中文 Windows 95 內存中為7個字節，每個漢字占2個字節，每個英文和數字字符占1個字節：

D6	D0	CE	C4	31	32	33	00

中		文		1	2	3	\0

在 UNICODE 被采用之后，計算機存放字符串時，改為存放每個字符在 UNICODE 字符集中的序號。目前計算機一般使用 2 個字節（16 位）來存放一個序號（DBCS），因此，這種方式存放的字符也被稱作寬字節字符。比如，字符串 "中文123" 在 Windows 2000 下，內存中實際存放的是 5 個序號：

2D	4E	87	65	31	00	32	00	33	00	00	00	← 在 x86 CPU 中，低字節在前

中		文		1		2		3		\0

一共占 10 個字節。

回頁首

1.2 字符，字節，字符串

理解編碼的關鍵，是要把字符的概念和字節的概念理解準確。這兩個概念容易混淆，我們在此做一下區分：

	概念描述	舉例
字符	人們使用的記號，抽象意義上的一個符號。	'1', '中', 'a', '$', '￥', ……
字節	計算機中存儲數據的單元，一個8位的二進制數，是一個很具體的存儲空間。	0x01, 0x45, 0xFA, ……
ANSI 字符串	在內存中，如果“字符”是以 ANSI 編碼形式存在的，一個字符可能使用一個字節或多個字節來表示，那么我們稱這種字符串為 ANSI 字符串或者多字節字符串。	"中文123" （占7字節）
UNICODE 字符串	在內存中，如果“字符”是以在 UNICODE 中的序號存在的，那么我們稱這種字符串為 UNICODE 字符串或者寬字節字符串。	L"中文123" （占10字節）

由于不同 ANSI 編碼所規定的標準是不相同的，因此，對于一個給定的多字節字符串，我們必須知道它采用的是哪一種編碼規則，才能夠知道它包含了哪些“字符”。而對于 UNICODE 字符串來說，不管在什么環境下，它所代表的“字符”內容總是不變的。

回頁首

1.3 字符集與編碼

各個國家和地區所制定的不同 ANSI 編碼標準中，都只規定了各自語言所需的“字符”。比如：漢字標準（GB2312）中沒有規定韓國語字符怎樣存儲。這些 ANSI 編碼標準所規定的內容包含兩層含義：

使用哪些字符。也就是說哪些漢字，字母和符號會被收入標準中。所包含“字符”的集合就叫做“字符集”。
規定每個“字符”分別用一個字節還是多個字節存儲，用哪些字節來存儲，這個規定就叫做“編碼”。

各個國家和地區在制定編碼標準的時候，“字符的集合”和“編碼”一般都是同時制定的。因此，平常我們所說的“字符集”，比如：GB2312, GBK, JIS 等，除了有“字符的集合”這層含義外，同時也包含了“編碼”的含義。

“UNICODE 字符集”包含了各種語言中使用到的所有“字符”。用來給 UNICODE 字符集編碼的標準有很多種，比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。

回頁首

1.4 常用的編碼簡介

簡單介紹一下常用的編碼規則，為后邊的章節做一個準備。在這里，我們根據編碼規則的特點，把所有的編碼分成三類：

分類	編碼標準	說明
單字節字符編碼	ISO-8859-1	最簡單的編碼規則，每一個字節直接作為一個 UNICODE 字符。比如，[0xD6, 0xD0] 這兩個字節，通過 iso-8859-1 轉化為字符串時，將直接得到 [0x00D6, 0x00D0] 兩個 UNICODE 字符，即 "ÖÐ"。反之，將 UNICODE 字符串通過 iso-8859-1 轉化為字節串時，只能正常轉化 0~255 范圍的字符。
ANSI 編碼	GB2312, BIG5, Shift_JIS, ISO-8859-2 ……	把 UNICODE 字符串通過 ANSI 編碼轉化為“字節串”時，根據各自編碼的規定，一個 UNICODE 字符可能轉化成一個字節或多個字節。反之，將字節串轉化成字符串時，也可能多個字節轉化成一個字符。比如，[0xD6, 0xD0] 這兩個字節，通過 GB2312 轉化為字符串時，將得到 [0x4E2D] 一個字符，即 '中' 字。 “ANSI 編碼”的特點： 1. 這些“ANSI 編碼標準”都只能處理各自語言范圍之內的 UNICODE 字符。 2. “UNICODE 字符”與“轉換出來的字節”之間的關系是人為規定的。
UNICODE 編碼	UTF-8, UTF-16, UnicodeBig ……	與“ANSI 編碼”類似的，把字符串通過 UNICODE 編碼轉化成“字節串”時，一個 UNICODE 字符可能轉化成一個字節或多個字節。與“ANSI 編碼”不同的是： 1. 這些“UNICODE 編碼”能夠處理所有的 UNICODE 字符。 2. “UNICODE 字符”與“轉換出來的字節”之間是可以通過計算得到的。

我們實際上沒有必要去深究每一種編碼具體把某一個字符編碼成了哪幾個字節，我們只需要知道“編碼”的概念就是把“字符”轉化成“字節”就可以了。對于“UNICODE 編碼”，由于它們是可以通過計算得到的，因此，在特殊的場合，我們可以去了解某一種“UNICODE 編碼”是怎樣的規則。

回頁首

2. 字符與編碼在程序中的實現

2.1 程序中的字符與字節

在 C++ 和 Java 中，用來代表“字符”和“字節”的數據類型，以及進行編碼的方法：

類型或操作	C++	Java
字符	wchar_t	char
字節	char	byte
ANSI 字符串	char[]	byte[]
UNICODE 字符串	wchar_t[]	String
字節串→字符串	mbstowcs(), MultiByteToWideChar()	string = new String(bytes, "encoding")
字符串→字節串	wcstombs(), WideCharToMultiByte()	bytes = string.getBytes("encoding")

以上需要注意幾點：

Java 中的 char 代表一個“UNICODE 字符（寬字節字符）”，而 C++ 中的 char 代表一個字節。
MultiByteToWideChar() 和 WideCharToMultiByte() 是 Windows API 函數。

回頁首

2.2 C++ 中相關實現方法

聲明一段字符串常量：

// ANSI 字符串，內容長度 7 字節
char sz[20] = "中文123";

// UNICODE 字符串，內容長度 5 個 wchar_t（10 字節）
wchar_t wsz[20] = L"\x4E2D\x6587\x0031\x0032\x0033";

UNICODE 字符串的 I/O 操作，字符與字節的轉換操作：

// 運行時設定當前 ANSI 編碼，VC 格式
setlocale(LC_ALL, ".936");

// GCC 中格式
setlocale(LC_ALL, "zh_CN.GBK");

// Visual C++ 中使用小寫 %s，按照 setlocale 指定編碼輸出到文件
// GCC 中使用大寫 %S
fwprintf(fp, L"%s\n", wsz);

// 把 UNICODE 字符串按照 setlocale 指定的編碼轉換成字節
wcstombs(sz, wsz, 20);
// 把字節串按照 setlocale 指定的編碼轉換成 UNICODE 字符串
mbstowcs(wsz, sz, 20);

在 Visual C++ 中，UNICODE 字符串常量有更簡單的表示方法。如果源程序的編碼與當前默認 ANSI 編碼不符，則需要使用 #pragma setlocale，告訴編譯器源程序使用的編碼：

// 如果源程序的編碼與當前默認 ANSI 編碼不一致，
// 則需要此行，編譯時用來指明當前源程序使用的編碼
#pragma setlocale(".936")

// UNICODE 字符串常量，內容長度 10 字節
wchar_t wsz[20] = L"中文123";

以上需要注意 #pragma setlocale 與 setlocale(LC_ALL, "") 的作用是不同的，#pragma setlocale 在編譯時起作用，setlocale() 在運行時起作用。

回頁首

2.3 Java 中相關實現方法

字符串類 String 中的內容是 UNICODE 字符串：

// Java 代碼，直接寫中文
String string = "中文123";

// 得到長度為 5，因為是 5 個字符
System.out.println(string.length());

字符串 I/O 操作，字符與字節轉換操作。在 Java 包 java.io.* 中，以“Stream”結尾的類一般是用來操作“字節串”的類，以“Reader”，“Writer”結尾的類一般是用來操作“字符串”的類。

// 字符串與字節串間相互轉化

// 按照 GB2312 得到字節（得到多字節字符串）
byte [] bytes = string.getBytes("GB2312");

// 從字節按照 GB2312 得到 UNICODE 字符串
string = new String(bytes, "GB2312");

// 要將 String 按照某種編碼寫入文本文件，有兩種方法：

// 第一種辦法：用 Stream 類寫入已經按照指定編碼轉化好的字節串
OutputStream os = new FileOutputStream("1.txt");
os.write(bytes);
os.close();

// 第二種辦法：構造指定編碼的 Writer 來寫入字符串
Writer ow = new OutputStreamWriter(new FileOutputStream("2.txt"), "GB2312");
ow.write(string);
ow.close();

/* 最后得到的 1.txt 和 2.txt 都是 7 個字節 */

如果 java 的源程序編碼與當前默認 ANSI 編碼不符，則在編譯的時候，需要指明一下源程序的編碼。比如：

E:\>javac -encoding BIG5 Hello.java

以上需要注意區分源程序的編碼與 I/O 操作的編碼，前者是在編譯時起作用，后者是在運行時起作用。

回頁首

3. 幾種誤解，以及亂碼產生的原因和解決辦法

3.1 容易產生的誤解

	對編碼的誤解
誤解一	在將“字節串”轉化成“UNICODE 字符串”時，比如在讀取文本文件時，或者通過網絡傳輸文本時，容易將“字節串”簡單地作為單字節字符串，采用每“一個字節”就是“一個字符”的方法進行轉化。而實際上，在非英文的環境中，應該將“字節串”作為 ANSI 字符串，采用適當的編碼來得到 UNICODE 字符串，有可能“多個字節”才能得到“一個字符”。通常，一直在英文環境下做開發的程序員們，容易有這種誤解。
誤解二	在 DOS，Windows 98 等非 UNICODE 環境下，字符串都是以 ANSI 編碼的字節形式存在的。這種以字節形式存在的字符串，必須知道是哪種編碼才能被正確地使用。這使我們形成了一個慣性思維：“字符串的編碼”。當 UNICODE 被支持后，Java 中的 String 是以字符的“序號”來存儲的，不是以“某種編碼的字節”來存儲的，因此已經不存在“字符串的編碼”這個概念了。只有在“字符串”與“字節串”轉化時，或者，將一個“字節串”當成一個 ANSI 字符串時，才有編碼的概念。不少的人都有這個誤解。

第一種誤解，往往是導致亂碼產生的原因。第二種誤解，往往導致本來容易糾正的亂碼問題變得更復雜。

在這里，我們可以看到，其中所講的“誤解一”，即采用每“一個字節”就是“一個字符”的轉化方法，實際上也就等同于采用 iso-8859-1 進行轉化。因此，我們常常使用 bytes = string.getBytes("iso-8859-1") 來進行逆向操作，得到原始的“字節串”。然后再使用正確的 ANSI 編碼，比如 string = new String(bytes, "GB2312")，來得到正確的“UNICODE 字符串”。

回頁首

3.2 非 UNICODE 程序在不同語言環境間移植時的亂碼

非 UNICODE 程序中的字符串，都是以某種 ANSI 編碼形式存在的。如果程序運行時的語言環境與開發時的語言環境不同，將會導致 ANSI 字符串的顯示失敗。

比如，在日文環境下開發的非 UNICODE 的日文程序界面，拿到中文環境下運行時，界面上將顯示亂碼。如果這個日文程序界面改為采用 UNICODE 來記錄字符串，那么當在中文環境下運行時，界面上將可以顯示正常的日文。

由于客觀原因，有時候我們必須在中文操作系統下運行非 UNICODE 的日文軟件，這時我們可以采用一些工具，比如，南極星，AppLocale 等，暫時的模擬不同的語言環境。

回頁首

3.3 網頁提交字符串

當頁面中的表單提交字符串時，首先把字符串按照當前頁面的編碼，轉化成字節串。然后再將每個字節轉化成 "%XX" 的格式提交到 Web 服務器。比如，一個編碼為 GB2312 的頁面，提交 "中" 這個字符串時，提交給服務器的內容為 "%D6%D0"。

在服務器端，Web 服務器把收到的 "%D6%D0" 轉化成 [0xD6, 0xD0] 兩個字節，然后再根據 GB2312 編碼規則得到 "中" 字。

在 Tomcat 服務器中，request.getParameter() 得到亂碼時，常常是因為前面提到的“誤解一”造成的。默認情況下，當提交 "%D6%D0" 給 Tomcat 服務器時，request.getParameter() 將返回 [0x00D6, 0x00D0] 兩個 UNICODE 字符，而不是返回一個 "中" 字符。因此，我們需要使用 bytes = string.getBytes("iso-8859-1") 得到原始的字節串，再用 string = new String(bytes, "GB2312") 重新得到正確的字符串 "中"。

回頁首

3.4 從數據庫讀取字符串

通過數據庫客戶端（比如 ODBC 或 JDBC）從數據庫服務器中讀取字符串時，客戶端需要從服務器獲知所使用的 ANSI 編碼。當數據庫服務器發送字節流給客戶端時，客戶端負責將字節流按照正確的編碼轉化成 UNICODE 字符串。

如果從數據庫讀取字符串時得到亂碼，而數據庫中存放的數據又是正確的，那么往往還是因為前面提到的“誤解一”造成的。解決的辦法還是通過 string = new String( string.getBytes("iso-8859-1"), "GB2312") 的方法，重新得到原始的字節串，再重新使用正確的編碼轉化成字符串。

回頁首

3.5 電子郵件中的字符串

當一段 Text 或者 HTML 通過電子郵件傳送時，發送的內容首先通過一種指定的字符編碼轉化成“字節串”，然后再把“字節串”通過一種指定的傳輸編碼（Content-Transfer-Encoding）進行轉化得到另一串“字節串”。比如，打開一封電子郵件源代碼，可以看到類似的內容：

Content-Type: text/plain;
charset="gb2312"
Content-Transfer-Encoding: base64

sbG+qcrQuqO17cf4yee74bGjz9W7+b3wudzA7dbQ0MQNCg0KvPKzxqO6uqO17cnnsaPW0NDEDQoNCg==

最常用的 Content-Transfer-Encoding 有 Base64 和 Quoted-Printable 兩種。在對二進制文件或者中文文本進行轉化時，Base64 得到的“字節串”比 Quoted-Printable 更短。在對英文文本進行轉化時，Quoted-Printable 得到的“字節串”比 Base64 更短。

郵件的標題，用了一種更簡短的格式來標注“字符編碼”和“傳輸編碼”。比如，標題內容為 "中"，則在郵件源代碼中表示為：

// 正確的標題格式
Subject: =?GB2312?B?1tA=?=

其中，

第一個“=?”與“?”中間的部分指定了字符編碼，在這個例子中指定的是 GB2312。
“?”與“?”中間的“B”代表 Base64。如果是“Q”則代表 Quoted-Printable。
最后“?”與“?=”之間的部分，就是經過 GB2312 轉化成字節串，再經過 Base64 轉化后的標題內容。

如果“傳輸編碼”改為 Quoted-Printable，同樣，如果標題內容為 "中"：

// 正確的標題格式
Subject: =?GB2312?Q?=D6=D0?=

如果閱讀郵件時出現亂碼，一般是因為“字符編碼”或“傳輸編碼”指定有誤，或者是沒有指定。比如，有的發郵件組件在發送郵件時，標題 "中"：

// 錯誤的標題格式
Subject: =?ISO-8859-1?Q?=D6=D0?=

這樣的表示，實際上是明確指明了標題為 [0x00D6, 0x00D0]，即 "ÖÐ"，而不是 "中"。

回頁首

4. 幾種錯誤理解的糾正

誤解：“ISO-8859-1 是國際編碼？”

非也。iso-8859-1 只是單字節字符集中最簡單的一種，也就是“字節編號”與“UNICODE 字符編號”一致的那種編碼規則。當我們要把一個“字節串”轉化成“字符串”，而又不知道它是哪一種 ANSI 編碼時，先暫時地把“每一個字節”作為“一個字符”進行轉化，不會造成信息丟失。然后再使用 bytes = string.getBytes("iso-8859-1") 的方法可恢復到原始的字節串。

誤解：“Java 中，怎樣知道某個字符串的內碼？”

Java 中，字符串類 java.lang.String 處理的是 UNICODE 字符串，不是 ANSI 字符串。我們只需要把字符串作為“抽象的符號的串”來看待。因此不存在字符串的內碼的問題。

posted on 2008-01-17 14:29 backup2007 閱讀(555) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

backup2007

導航

統計

公告

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜