JAVA

人生若只如初見，何事秋風(fēng)悲畫扇。

BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理 ::

50 隨筆 :: 25 文章 :: 157 評論 :: 0 Trackbacks

<

2006年6月

>

日

一

二

三

四

五

六

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

公告

In life there are very rare chances that you'll meet the person you love and loves you in return. So once you have it don't ever let go, the chance might never come your way.

常用鏈接

留言簿(20)

隨筆分類(55)

隨筆檔案(50)

文章分類(2)

Beautiful English Article(2) (rss)

文章檔案(25)

搜索

閱讀排行榜

評論排行榜

字符集的編(解)碼的總結(jié)

　　看了孫鑫老師的相關(guān)講解后，總結(jié)一下。

　　首先看清楚幾種常用的字符集編碼(java語言是采用unicode字符集編碼來表示字符與字符串的)：

　　ASCII(American Standard Code for Information Interchange，美國信息互換標準代碼)，是基于常用的英文字符的一套電腦編碼系統(tǒng)。我們知道英文中經(jīng)常使用的字符、數(shù)字符號被計算機處理時都是以二進制碼的形式出現(xiàn)的。這種二進制碼的集合就是所謂的ASCII碼。每一個ASCII碼與一個8位（bit）二進制數(shù)對應(yīng)。其最高位是0，相應(yīng)的十進制數(shù)是0-127。如，數(shù)字“0”的編碼用十進制數(shù)表示就是48。另有128個擴展的ASCII碼，最高位都是1，由一些制表符和其它符號組成。ASCII是現(xiàn)今最通用的單字節(jié)編碼系統(tǒng)。

　　GB2312：GB2312碼是中華人民共和國國家漢字信息交換用編碼，全稱《信息交換用漢字編碼字符集－基本集》。主要用于給每一個中文字符指定相應(yīng)的數(shù)字，也就是進行編碼。一個中文字符用兩個字節(jié)的數(shù)字來表示，為了和ASCII碼有所區(qū)別，將中文字符每一個字節(jié)的最高位置都用1來表示。

　　GBK：為了對更多的字符進行編碼，國家又發(fā)布了新的編碼系統(tǒng)GBK(GBK的K是“擴展”的漢語拼音第一個字母)。在新的編碼系統(tǒng)里，除了完全兼容GB2312 外，還對繁體中文、一些不常用的漢字和許多符號進行了編碼。

　　ISO-8859-1：是西方國家所使用的字符編碼集，是一種單字節(jié)的字符集，而英文實際上只用了其中數(shù)字小于128的部分。

　　Unicode：這是一種通用的字符集，對所有語言的文字進行了統(tǒng)一編碼，對每一個字符都用2個字節(jié)來表示，對于英文字符采取前面加“0”字節(jié)的策略實現(xiàn)等長兼容。如 “a” 的ASCII碼為0x61，UNICODE就為0x00，0x61。

　　UTF-8：Eight-bit UCS Transformation Format，(UCS，Universal Character Set，通用字符集，UCS 是所有其他字符集標準的一個超集)。一個7位的ASCII碼值，對應(yīng)的UTF碼是一個字節(jié)。如果字符是0x0000，或在0x0080與0x007f之間，對應(yīng)的UTF碼是兩個字節(jié)，如果字符在0x0800與0xffff之間，對應(yīng)的UTF碼是三個字節(jié)。

　　我們運行java程序時，JVM有自己所支持的編碼種類，用以下代碼可以看到：

Map?m = Charset.availableCharsets();

??Set?names = m.keySet();

??Iterator?it = names.iterator();

?? while (it.hasNext())

?? {

???System.out.println(it.next());

??}

　　?然后可以通過以下代碼看到我們目前JVM所使用的編碼：

Properties?pps = System.getProperties();

??pps.list(System.out);

　　具體來說什么是編碼，什么是解碼？
　　在InputStreamReader JDK有這樣描述：It reads bytes and decodes them into characters using a specified charset.(用指定的字符集將字節(jié)數(shù)組解碼成字符串)。
　　相反OutputStreamWriter 描述：Characters written to it are encoded into bytes using a specified charset.(用指定的字符集將字符串編碼成字節(jié)數(shù)組)。

　　理解這個以后一切好辦了啦！

　　我們的OS一般是GBK編碼的（凡是從磁盤上讀取文件可以看成是用OS的字符集編碼方式來對操作對象進行解碼處理--從標準輸入設(shè)備讀取數(shù)據(jù)的時候是依賴OS的字符集）。而我們將從磁盤上文件經(jīng)過處理得到我們想要的字符串等其它對象的時候，這一過程是用JVM的默認的字符集編碼方式來處理的！由于不同的字符集編碼方式有著不同的原理(前面所述)，這樣當編碼與解碼不一致的時候，自然而然就出現(xiàn)了可愛的亂碼。

　　比如如下，將我們JVM字符集改成iso-8859-1這樣在就與我們的OS不同：
　　當輸入中文時自然就輸出的是亂碼了。

pps.put( " file.encoding " , " ISO-8859-1 " );

?? int ?data;

?? byte []?buf = new ? byte [ 100 ];

?? int ?i = 0 ;

?? while ((data = System.in.read()) != ' q ' )

?? {

???buf[i] = ( byte )data;

???i ++ ;

??}

??String?str = new ?String(buf, 0 ,i);

??System.out.println(str);

　
　　這時我們可以用string的一個構(gòu)造方法：
　　String(byt[]?bytes,?String?charsetName)?
　　Constructs?a?new?String?by?decoding?the?specified?array?of?bytes?using?the?specified?charset.(用指定的字符集對字節(jié)數(shù)組進行解碼)。
　　其中用到了string 的getBytes方法：
　　getBytes(String charsetName)
　　Encodes this String into a sequence of bytes using the named charset, storing the result into a new byte array.(用指定的字符集進行編碼，將結(jié)果存放到一字節(jié)數(shù)組里面)重新構(gòu)造一個string：

String?strGBK = new ?String(str.getBytes( " ISO-8859-1 " ), " GBK " );

　　這樣又可以重新得到我們想要的漢字了。

　　我們這例子中是GBK(OS)來編碼的，然后采用iso-8859-1(JVM)來解碼得到一個新string(此string是亂碼)，然后將此string用iso-8859-1重新編碼，并且用指定的GBK來解碼。得到一個新string(也就是strGBK)，這個string就不再是亂碼了。

　　但如果我們一開始就采用GBK解碼得到的字符串，然后用ISO-8859-1編碼，能否再解碼回去得到我們的中文字符呢？顯示不可以啦，因為用ISO-8859-1的編碼的時候采用是一種單字節(jié)的字符集來對其編碼，這樣就丟失了一個字節(jié)(對中文來說)！所以這樣是得不到中文字符的！

posted on 2006-06-29 08:42 Jkallen 閱讀(2393) 評論(4) 編輯收藏所屬分類: JEE學(xué)習(xí)


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 是JVM導(dǎo)致Weblogic異常終止嘛？咨詢一個自認為很奇怪的問題(在java中獲取數(shù)據(jù)庫連接時相關(guān)) 字符集的編(解)碼的總結(jié) 借第三方類型庫解析excel文件原來JSP里面也可以這樣引用初探序列化---Serializable VO(DTO)與PO(DAO)之間的轉(zhuǎn)換 Java中一些關(guān)于日期、日期格式、日期的解析和日期的計算 (轉(zhuǎn),略改) Hibernate學(xué)習(xí)---通過XDoclet(ant)生成Hibernate映射文件 Java中文處理, 資源包后綴詳解

JAVA

公告

常用鏈接

留言簿(20)

隨筆分類(55)

隨筆檔案(50)

文章分類(2)

文章檔案(25)

相冊

JAVA

友人鏈接

實用查詢

珍藏鏈接

搜索

最新評論

閱讀排行榜

評論排行榜

評論