Java中文亂碼原因
Java在中文環(huán)境中亂碼無處不在,而且出現(xiàn)的時(shí)間和位置也包涵廣泛,具體的解決方法也是千奇百怪。
但是如果能理清其中的脈絡(luò),理解字符處 理的過程,對(duì)于解決問題很有指導(dǎo)意義,不至于解決了問題也不知道為什么。
其實(shí),原因不外乎出在String輸入時(shí)和輸出時(shí)。
首先,Java中的任何String都是以UNICODE格式存在的。
很多人因?yàn)樵贕BK環(huán)境中使用String,會(huì)誤以為String是GBK格式,實(shí)際上Java的String類中并沒有存儲(chǔ)CharSet信息的字段, 所有String中的字符只會(huì)以UNICODE的2字節(jié)形式存在。
String在構(gòu)造時(shí)會(huì)逐一把字符按指定編碼(默認(rèn)值為系統(tǒng)編碼GBK),轉(zhuǎn)換為UNICODE字符,存入一個(gè)Char(無符號(hào)16位)數(shù)組中。
如:
new String(bytes,"gbk");
并不是說,生成一個(gè)GBK編碼的字符串,而是按GBK逐一辨認(rèn)字節(jié)數(shù)組bytes中的字符轉(zhuǎn)化為UNICODE。
假設(shè),bytes本是按GB編碼的,構(gòu)造方法在發(fā)現(xiàn)一個(gè)最高位為0的byte就作為ascii字符處理,最高位為1就和后面的一個(gè)byte合成中文字符, 再轉(zhuǎn)換編碼。
可以看出,在這個(gè)過程中,編碼選擇錯(cuò)誤就會(huì)導(dǎo)致程序按錯(cuò)誤方法辨認(rèn)bytes,亂碼就出現(xiàn)了。
在這里產(chǎn)生的亂碼,很多時(shí)候還可以通過.getByte()方法修復(fù),還沒有后面的嚴(yán)重。
如:
"中".getBytes("iso-8859-1");
因?yàn)閕so-8859-1中沒有中文,所以"中"的值被替換成63,顯示'?',無法判斷以前是什么值。
所以如下String將被破壞掉:
new String("中文".getBytes("iso-8859-1"),"iso-8859-1");
如果目標(biāo)編碼方式支持中文,就不會(huì)損壞String:
new String("中文".getBytes("utf-8"),"utf-8");
Java在顯示字符時(shí),還需要進(jìn)行一次轉(zhuǎn)換,把UNICODE字符轉(zhuǎn)換成用于顯示的字符編碼形式。
很多時(shí)候,這個(gè)過程是自動(dòng)的,會(huì)按系統(tǒng)的默認(rèn)編碼(一般是GBK)轉(zhuǎn)換String。
如果和頁面編碼不一樣,就會(huì)出現(xiàn)亂碼,雖然在Java的程序中只有一種編碼,輸出卻可以有不同的編碼。
有時(shí)候,我們需要用 iso-8859-1格式分解String的中文,以便在不支持中文的系統(tǒng)中存儲(chǔ):
new String("中文".getBytes("GBK"),"iso-8859-1");
先通過GBK等支持中文的編碼方式分解為byte數(shù)組,再做為iso-8859-1字符組成字符串,就避免了被替換為Char(63)。
=========================================================================
示例程序
public static void main(String[] args) { String str = "中國(guó)"; printBytes("中國(guó)的UNICODE編碼:", str.getBytes(Charset.forName("unicode"))); printBytes("中國(guó)的GBK編碼:", str.getBytes(Charset.forName("GBK"))); printBytes("中國(guó)的UTF-8編碼:", str.getBytes(Charset.forName("UTF-8"))); } public static void printBytes(String title, byte[] data) { System.out.println(title); for (byte b : data) { System.out.print("0x" + toHexString(b) + " "); } System.out.println(); } public static String toHexString(byte value) { String tmp = Integer.toHexString(value & 0xFF); if (tmp.length() == 1) { tmp = "0" + tmp; } return tmp.toUpperCase(); } |
上例的輸出結(jié)果為:
中國(guó)的UNICODE編碼:
0xFE 0xFF 0x4E 0x2D 0x56 0xFD
中國(guó)的GBK編碼:
0xD6 0xD0 0xB9 0xFA
中國(guó)的UTF-8編碼:
0xE4 0xB8 0xAD 0xE5 0x9B 0xBD
posted on 2014-09-19 13:20 順其自然EVO 閱讀(257) 評(píng)論(0) 編輯 收藏 所屬分類: 測(cè)試學(xué)習(xí)專欄