waysun一路陽光

不輕易服輸,不輕言放棄.--心是夢的舞臺，心有多大，舞臺有多大。踏踏實實做事，認認真真做人。

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: :: 管理 ::

167 隨筆 :: 1 文章 :: 64 評論 :: 0 Trackbacks

<

2011年6月

>

日

一

二

三

四

五

六

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

公告

開啟一扇窗,給自己一個舞臺!

QQ:251218333,82424805
MSN:CF1504@Hotmail.com
E-mail:yyk1504@163.com
第位來訪者

常用鏈接

隨筆分類(189)

隨筆檔案(160)

文章分類(1)

AJAX

Flex
iDEAL網絡
Java開源AJAX框架
nm1504
struts
亮亮的博客
沖出宇宙
周老師科研站
四海兄弟
我的休閑博客
方佳瑋的博客
昆山人在上海
空山雪林
胡偉的官方博客
舞動JAVA
趙良乾

搜索

積分與排名

積分 - 237732
排名 - 238

最新評論

1.?re: cfca證書工具包使用指南【轉】
阿斯頓撒旦
--廖
2.?re: Java源碼：md5加密算法（轉帖）
11111111111111111111111
--企鵝額
3.?re: javascript中獲取radio值得方法【收藏】
范德薩發大水
--俄方地方
4.?re: 模態窗口提交到struts2的action后關閉自身并返回到父窗口，父窗口為一個iframe[未登錄]
頂頂頂頂
--斷點
5.?www
11
--ww

理解并解決GBK轉UTF-8奇數中文亂碼【轉】

http://www.iteye.com/topic/1097560

最近在做一個反饋功能，把數據反饋到對方公司網站，我公司是GBK編碼，對方公司是UTF-8編碼。因此，我需要將GBK編碼數據轉換成UTF-8編碼數據，這樣對方網站才不會亂碼。最簡單的方法是將HttpClient的ContentCharset設置為utf-8；如果ContentCharset是gbk并且又不想設置為utf-8，那么就需要將數據轉換成UTF-8編碼再發到對方網站。

問題出現：GBK轉UTF-8時，奇數個中文會亂碼，偶數個中文不會亂碼。
三個中文

Java代碼  
public static void encodeError() throws UnsupportedEncodingException {  
    String gbk = "我來了";  
    String utf8 = new String(gbk.getBytes("UTF-8"));  
  
    //模擬UTF-8編碼的網站顯示  
    System.out.println(new String(utf8.getBytes(),"UTF-8"));  
}  
/* 
我來?? 
*/  

前面三個中文，后面一個中文，都是奇數

Java代碼  
public static void encodeError2() throws UnsupportedEncodingException {  
    String gbk = "今年是2011年";  
    String utf8 = new String(gbk.getBytes("UTF-8"));  
  
    //模擬UTF-8編碼的網站顯示  
    System.out.println(new String(utf8.getBytes(),"UTF-8"));  
}  
/* 
今年??011?? 
*/  

原因：為什么只有奇數個中文才亂碼，偶數個卻不亂碼？下面來分析原因

Java代碼  
public static void analyze() throws UnsupportedEncodingException {  
    String gbk = "我來了";  
    String utf8 = new String(gbk.getBytes("UTF-8"));  
    for (byte b : gbk.getBytes("UTF-8")) {  
        System.out.print(b + " ");  
    }  
    System.out.println();  
    for (byte b : utf8.getBytes()) {  
        System.out.print(b + " ");  
    }  
}  
/* 
-26 -120 -111 -26 -99 -91 -28 -70 -122  
-26 -120 -111 -26 -99 -91 -28 -70 63  
*/  

注意最后一個字節不同，上面一行才是正確的UTF-8編碼。那么為什么下面一行最后一個字節是63，而不是-122呢？這就是導致亂碼的原因所在。
GBK編碼是一個中文2個字節，而UTF-8編碼是一個中文3個字節，當我們調用getBytes("UTF-8")方法時，會通過計算來增加字節，使得從GBK的2個字節變成UTF-8對應的3個字節。因此，上例3個中文輸出了9個字節。

這里講一下怎么通過計算增加字節，不深究的讀者可以跳過此段。為了醒目，直接用代碼講解

Java代碼  
public static void gbk2Utf() throws UnsupportedEncodingException {  
    String gbk = "我來了";  
    char[] c = gbk.toCharArray();  
    byte[] fullByte = new byte[3*c.length];  
    for (int i=0; i<c.length; i++) {  
        String binary = Integer.toBinaryString(c[i]);  
        StringBuffer sb = new StringBuffer();  
        int len = 16 - binary.length();  
        //前面補零  
        for(int j=0; j<len; j++){  
                sb.append("0");  
            }  
        sb.append(binary);  
        //增加位，達到到24位3個字節  
        sb.insert(0, "1110");  
            sb.insert(8, "10");  
            sb.insert(16, "10");  
            fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二進制字符串創建整型  
            fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();  
            fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();  
    }  
    //模擬UTF-8編碼的網站顯示  
    System.out.println(new String(fullByte,"UTF-8"));  
}  

現在我們來找出最后一個字節是63，而不是-122的原因。

Java代碼  
public static void analyze2() throws UnsupportedEncodingException {  
    String gbk = "我來了";  
    byte[] utfBytes = gbk.getBytes("UTF-8");//得到9個字節  
    String utf8 = new String(utfBytes);//問題就出在這  
    System.out.print(utf8);  
}  
/* 
鎴戞潵浜? 
*/  

因為文件是GBK編碼，new String(utfBytes)默認就是new String(utfBytes,"GBK")。它會2個字節2個字節地轉換成字符，當字節是奇數時最后1個字節轉字符就會計算錯誤，然后直接賦予最后這個字符為?，對應ASCII代碼就是63。

解決問題
保證字節正確才是硬道理。當調用getBytes("UTF-8")轉換成字節數組后，創建ISO-8859-1編碼的字符串，ISO-8859-1編碼是一個字節對應一個字符，因此不會使最后一個字節錯誤。

Java代碼  
public static void correctEncode() throws UnsupportedEncodingException {  
    String gbk = "我來了";  
    String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");  
    for (byte b : iso.getBytes("ISO-8859-1")) {  
        System.out.print(b + " ");  
    }  
    System.out.println();  
  
    //模擬UTF-8編碼的網站顯示  
    System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));  
}  
/* 
-26 -120 -111 -26 -99 -91 -28 -70 -122  
我來了 
*/  

posted on 2011-06-20 14:56 weesun一米陽光閱讀(4075) 評論(3) 編輯收藏


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理