Todd

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

65 隨筆 :: 0 文章 :: 24 評論 :: 0 Trackbacks

<

2014年7月

>

日

一

二

三

四

五

六

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

常用鏈接

留言簿

隨筆分類(71)

隨筆檔案(61)

搜索

積分與排名

積分 - 178098
排名 - 328

閱讀排行榜

評論排行榜

漢字字符編碼與轉碼詳解

程序中有漢字參數，經常會遇到編碼轉碼問題，總結下：
1.漢字為多字節字符，須多字節編碼解碼，如"測試".getBytes("gb2312");

這樣"測試".getBytes("gb2312")就變成一個byte數組，這時候你可以隨意重新指定編碼如iso-8859-1,
String s1=new String("測試".getBytes("gb2312"),"iso-8859-1");

編為s1,這是s1就變成一個是iso-8859-1編碼的字符串，如果你想重新轉為中文，那么，你用什么字符集編碼的，必須用什么字符集來解碼，這里是iso-8859-1,可以這么來做

String s2 = new String(s1.getBytes("ISO-8859-1"),"gb2312");

這樣s2又重新變回中文了，所以當你打印s2時，就是“測試”。

2.用iso-8859-1做中間編碼，原因：

[1]iso-8859-1是單字節字符編碼，

[2]ANSI 編碼 (如：GB2312, BIG5,Shift_JIS,ISO-8859-2等等），是多字節編碼（英文單字節，中文多字節）；

[3]UNICODE 編碼（UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig....）,是寬字節編碼（所有字符均是多字節）

因此用iso-8859-1做中間碼，會保持原有字節的秩序，不發生混亂；可以理解為其他的編碼對iso-8859-1兼容吧。

因此，我們常常使用 bytes = string.getBytes("iso-8859-1") 坐中間碼來進行逆向操作，得到原始的“字節串”。然后再使用正確的ANSI 編碼，比如 string = new String(bytes, "GB2312")，來得到正確的“UNICODE 字符串”。

不信的話可以試試，utf8和gb不能互相轉換，只有iso-8859-1做中間碼可以完美互相轉碼！！！

posted on 2010-05-23 13:19 Todd 閱讀(1437) 評論(1) 編輯收藏所屬分類: java


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: java heap space， PermGen space 錯誤使用jvisualvm監測設置合理值 java反射效率測試 jdk6 eclipse wtp tomcat webservice jadclipse 使用漢字字符編碼與轉碼詳解 jni javac++ 參數傳遞問題解決 java dom4j操作xml 漢字字符編碼與轉碼詳解四個有用的過慮器【轉】單例模式不可使用雙重檢查鎖定