日韩成人在线一区,三区在线观看,老司机久久99久久精品播放免费

blog已經(jīng)轉(zhuǎn)移至github,大家請訪問 http://qaseven.github.io/

Java中文亂碼原因

Java在中文環(huán)境中亂碼無處不在,而且出現(xiàn)的時間和位置也包涵廣泛,具體的解決方法也是千奇百怪。

　　但是如果能理清其中的脈絡(luò),理解字符處理的過程,對于解決問題很有指導意義,不至于解決了問題也不知道為什么。

　　其實,原因不外乎出在String輸入時和輸出時。

　　首先,Java中的任何String都是以UNICODE格式存在的。

　　很多人因為在GBK環(huán)境中使用String,會誤以為String是GBK格式,實際上Java的String類中并沒有存儲CharSet信息的字段, 所有String中的字符只會以UNICODE的2字節(jié)形式存在。

　　String在構(gòu)造時會逐一把字符按指定編碼(默認值為系統(tǒng)編碼GBK),轉(zhuǎn)換為UNICODE字符,存入一個Char(無符號16位)數(shù)組中。

　　如:

　　new String(bytes,"gbk");

　　并不是說,生成一個GBK編碼的字符串,而是按GBK逐一辨認字節(jié)數(shù)組bytes中的字符轉(zhuǎn)化為UNICODE。

　　假設(shè),bytes本是按GB編碼的,構(gòu)造方法在發(fā)現(xiàn)一個最高位為0的byte就作為ascii字符處理,最高位為1就和后面的一個byte合成中文字符, 再轉(zhuǎn)換編碼。

　　可以看出,在這個過程中,編碼選擇錯誤就會導致程序按錯誤方法辨認bytes,亂碼就出現(xiàn)了。

　　在這里產(chǎn)生的亂碼,很多時候還可以通過.getByte()方法修復,還沒有后面的嚴重。

　　如:

　　"中".getBytes("iso-8859-1");

　　因為iso-8859-1中沒有中文,所以"中"的值被替換成63,顯示'?',無法判斷以前是什么值。

　　所以如下String將被破壞掉:

　　new String("中文".getBytes("iso-8859-1"),"iso-8859-1");

　　如果目標編碼方式支持中文,就不會損壞String:

　　new String("中文".getBytes("utf-8"),"utf-8");

　　Java在顯示字符時,還需要進行一次轉(zhuǎn)換,把UNICODE字符轉(zhuǎn)換成用于顯示的字符編碼形式。

　　很多時候,這個過程是自動的,會按系統(tǒng)的默認編碼(一般是GBK)轉(zhuǎn)換String。

　　如果和頁面編碼不一樣,就會出現(xiàn)亂碼,雖然在Java的程序中只有一種編碼,輸出卻可以有不同的編碼。

　　有時候,我們需要用 iso-8859-1格式分解String的中文,以便在不支持中文的系統(tǒng)中存儲:

　　new String("中文".getBytes("GBK"),"iso-8859-1");

　　先通過GBK等支持中文的編碼方式分解為byte數(shù)組,再做為iso-8859-1字符組成字符串,就避免了被替換為Char(63)。

　　=========================================================================

　　示例程序

public static void main(String[] args)

{

String str = "中國";

printBytes("中國的UNICODE編碼：", str.getBytes(Charset.forName("unicode")));

printBytes("中國的GBK編碼：", str.getBytes(Charset.forName("GBK")));

printBytes("中國的UTF-8編碼：", str.getBytes(Charset.forName("UTF-8")));

}

public static void printBytes(String title, byte[] data)

{

System.out.println(title);

for (byte b : data)

{

System.out.print("0x" + toHexString(b) + " ");

}

System.out.println();

}

public static String toHexString(byte value)

{

String tmp = Integer.toHexString(value & 0xFF);

if (tmp.length() == 1)

{

tmp = "0" + tmp;

}

return tmp.toUpperCase();

}

　　上例的輸出結(jié)果為：

　　中國的UNICODE編碼：

　　0xFE 0xFF 0x4E 0x2D 0x56 0xFD

　　中國的GBK編碼：

　　0xD6 0xD0 0xB9 0xFA

　　中國的UTF-8編碼：

　　0xE4 0xB8 0xAD 0xE5 0x9B 0xBD

posted on 2014-09-19 13:20 順其自然EVO 閱讀(258) 評論(0) 編輯收藏所屬分類: 測試學習專欄

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 如何進行Web服務(wù)的性能測試？利用drozer進行Android滲透測試 Appium Android Bootstrap源碼分析之命令解析執(zhí)行 Fliptest—iOS 的應(yīng)用A/B測試框架 iOS功能測試工具 Frank iOS單元測試框架Kiwi for iOS Appium Android Bootstrap之控件AndroidElement 移動應(yīng)用測試框架—Calabash Android 簡介 Appium Server源碼分析之作為Bootstrap客戶端移植MonkeyRunner的圖片對比功能實現(xiàn)-Appium篇

qileilove

Java中文亂碼原因

導航

統(tǒng)計

常用鏈接

留言簿(55)

隨筆分類

隨筆檔案

文章分類

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜