waysun一路陽光

          不輕易服輸,不輕言放棄.--心是夢的舞臺,心有多大,舞臺有多大。踏踏實實做事,認認真真做人。

            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 ::  :: 管理 ::
            167 隨筆 :: 1 文章 :: 64 評論 :: 0 Trackbacks
          http://www.iteye.com/topic/1097560

          最近在做一個反饋功能,把數(shù)據(jù)反饋到對方公司網(wǎng)站,我公司是GBK編碼,對方公司是UTF-8編碼。因此,我需要將GBK編碼數(shù)據(jù)轉(zhuǎn)換成UTF-8編碼數(shù)據(jù),這樣對方網(wǎng)站才不會亂碼。最簡單的方法是將HttpClient的ContentCharset設(shè)置為utf-8;如果ContentCharset是gbk并且又不想設(shè)置為utf-8,那么就需要將數(shù)據(jù)轉(zhuǎn)換成UTF-8編碼再發(fā)到對方網(wǎng)站。

           

          問題出現(xiàn):GBK轉(zhuǎn)UTF-8時,奇數(shù)個中文會亂碼,偶數(shù)個中文不會亂碼。
          三個中文

          Java代碼  收藏代碼
          1. public static void encodeError() throws UnsupportedEncodingException {  
          2.     String gbk = "我來了";  
          3.     String utf8 = new String(gbk.getBytes("UTF-8"));  
          4.   
          5.     //模擬UTF-8編碼的網(wǎng)站顯示  
          6.     System.out.println(new String(utf8.getBytes(),"UTF-8"));  
          7. }  
          8. /* 
          9. 我來?? 
          10. */  

           前面三個中文,后面一個中文,都是奇數(shù)

          Java代碼  收藏代碼
          1. public static void encodeError2() throws UnsupportedEncodingException {  
          2.     String gbk = "今年是2011年";  
          3.     String utf8 = new String(gbk.getBytes("UTF-8"));  
          4.   
          5.     //模擬UTF-8編碼的網(wǎng)站顯示  
          6.     System.out.println(new String(utf8.getBytes(),"UTF-8"));  
          7. }  
          8. /* 
          9. 今年??011?? 
          10. */  

           

          原因:為什么只有奇數(shù)個中文才亂碼,偶數(shù)個卻不亂碼?下面來分析原因

          Java代碼  收藏代碼
          1. public static void analyze() throws UnsupportedEncodingException {  
          2.     String gbk = "我來了";  
          3.     String utf8 = new String(gbk.getBytes("UTF-8"));  
          4.     for (byte b : gbk.getBytes("UTF-8")) {  
          5.         System.out.print(b + " ");  
          6.     }  
          7.     System.out.println();  
          8.     for (byte b : utf8.getBytes()) {  
          9.         System.out.print(b + " ");  
          10.     }  
          11. }  
          12. /* 
          13. -26 -120 -111 -26 -99 -91 -28 -70 -122  
          14. -26 -120 -111 -26 -99 -91 -28 -70 63  
          15. */  

           注意最后一個字節(jié)不同,上面一行才是正確的UTF-8編碼。那么為什么下面一行最后一個字節(jié)是63,而不是-122呢?這就是導(dǎo)致亂碼的原因所在。
          GBK編碼是一個中文2個字節(jié),而UTF-8編碼是一個中文3個字節(jié),當我們調(diào)用getBytes("UTF-8")方法時,會通過計算來增加字節(jié),使得從GBK的2個字節(jié)變成UTF-8對應(yīng)的3個字節(jié)。因此,上例3個中文輸出了9個字節(jié)。

           

          這里講一下怎么通過計算增加字節(jié),不深究的讀者可以跳過此段。為了醒目,直接用代碼講解

          Java代碼  收藏代碼
          1. public static void gbk2Utf() throws UnsupportedEncodingException {  
          2.     String gbk = "我來了";  
          3.     char[] c = gbk.toCharArray();  
          4.     byte[] fullByte = new byte[3*c.length];  
          5.     for (int i=0; i<c.length; i++) {  
          6.         String binary = Integer.toBinaryString(c[i]);  
          7.         StringBuffer sb = new StringBuffer();  
          8.         int len = 16 - binary.length();  
          9.         //前面補零  
          10.         for(int j=0; j<len; j++){  
          11.                 sb.append("0");  
          12.             }  
          13.         sb.append(binary);  
          14.         //增加位,達到到24位3個字節(jié)  
          15.         sb.insert(0"1110");  
          16.             sb.insert(8"10");  
          17.             sb.insert(16"10");  
          18.             fullByte[i*3] = Integer.valueOf(sb.substring(08), 2).byteValue();//二進制字符串創(chuàng)建整型  
          19.             fullByte[i*3+1] = Integer.valueOf(sb.substring(816), 2).byteValue();  
          20.             fullByte[i*3+2] = Integer.valueOf(sb.substring(1624), 2).byteValue();  
          21.     }  
          22.     //模擬UTF-8編碼的網(wǎng)站顯示  
          23.     System.out.println(new String(fullByte,"UTF-8"));  
          24. }  

           

          現(xiàn)在我們來找出最后一個字節(jié)是63,而不是-122的原因。

          Java代碼  收藏代碼
          1. public static void analyze2() throws UnsupportedEncodingException {  
          2.     String gbk = "我來了";  
          3.     byte[] utfBytes = gbk.getBytes("UTF-8");//得到9個字節(jié)  
          4.     String utf8 = new String(utfBytes);//問題就出在這  
          5.     System.out.print(utf8);  
          6. }  
          7. /* 
          8. 鎴戞潵浜? 
          9. */  

           因為文件是GBK編碼,new String(utfBytes)默認就是new String(utfBytes,"GBK")。它會2個字節(jié)2個字節(jié)地轉(zhuǎn)換成字符,當字節(jié)是奇數(shù)時最后1個字節(jié)轉(zhuǎn)字符就會計算錯誤,然后直接賦予最后這個字符為?,對應(yīng)ASCII代碼就是63。

           

          解決問題
          保證字節(jié)正確才是硬道理。當調(diào)用getBytes("UTF-8")轉(zhuǎn)換成字節(jié)數(shù)組后,創(chuàng)建ISO-8859-1編碼的字符串,ISO-8859-1編碼是一個字節(jié)對應(yīng)一個字符,因此不會使最后一個字節(jié)錯誤。

          Java代碼  收藏代碼
          1. public static void correctEncode() throws UnsupportedEncodingException {  
          2.     String gbk = "我來了";  
          3.     String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");  
          4.     for (byte b : iso.getBytes("ISO-8859-1")) {  
          5.         System.out.print(b + " ");  
          6.     }  
          7.     System.out.println();  
          8.   
          9.     //模擬UTF-8編碼的網(wǎng)站顯示  
          10.     System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));  
          11. }  
          12. /* 
          13. -26 -120 -111 -26 -99 -91 -28 -70 -122  
          14. 我來了 
          15. */  
          posted on 2011-06-20 14:56 weesun一米陽光 閱讀(4067) 評論(3)  編輯  收藏

          評論

          # re: 理解并解決GBK轉(zhuǎn)UTF-8奇數(shù)中文亂碼【轉(zhuǎn)】 2012-08-23 13:23 歡聚網(wǎng)
          學(xué)習(xí)餓了。  回復(fù)  更多評論
            

          # re: 理解并解決GBK轉(zhuǎn)UTF-8奇數(shù)中文亂碼【轉(zhuǎn)】 2012-09-17 09:34 study
          good 分析的很透徹  回復(fù)  更多評論
            

          # re: 理解并解決GBK轉(zhuǎn)UTF-8奇數(shù)中文亂碼【轉(zhuǎn)】[未登錄] 2013-12-15 15:19 alex
          now if it's the tag of xml.then it would trun "<" to null ,so what is the reason?  回復(fù)  更多評論
            


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 桂平市| 额济纳旗| 乌拉特中旗| 望奎县| 商城县| 泊头市| 大冶市| 临澧县| 泽库县| 太仆寺旗| 富蕴县| 罗平县| 揭东县| 星座| 红原县| 浏阳市| 包头市| 桃园县| 夏津县| 新河县| 红安县| 穆棱市| 江达县| 伊宁市| 商水县| 化州市| 西藏| 余江县| 梧州市| 平昌县| 天祝| 阿勒泰市| 巴彦淖尔市| 麻城市| 宜都市| 莆田市| 宝清县| 宁蒗| 军事| 旬邑县| 石台县|