四虎影视2018在线播放alocalhost,在线一区二区三区视频,精品欧美乱码久久久久久

如果你是JVM的設(shè)計者，讓你來決定JVM中所有字符的表示形式，你會不會允許使用各種編碼方式的字符并存？
我想你的答案是不會，如果在內(nèi)存中的Java字符可以以GB2312,UTF-16,BIG5等各種編碼形式存在，那么對開發(fā)者來說，連進(jìn)行最基本的字符串打印、連接等操作都會寸步難行。例如一個GB2312的字符串后面連接一個UTF-8的字符串，那么連接后的最終結(jié)果應(yīng)該是什么編碼的呢？你選哪一個都沒有道理。
因此牢記下面這句話，這也是Java開發(fā)者的共同意志：在Java中，字符只以一種編碼形式存在，那就是UTF-16。
但“在Java中”到底是指在哪里呢？就是指在JVM中，在內(nèi)存中，在你的代碼里聲明的每一個char，String類型的變量中。例如你在程序中這樣寫

char han='漢';

在內(nèi)存的相應(yīng)區(qū)域，這個字符就表示為0x6C49。可以用下面的代碼證明一下：

char han='漢';
System.out.format("%x",(short)han);

輸出是：
6c49
反過來用UTF-16編碼來指定一個字符也可以，像這樣：

char han=0x6c49;
System.out.println(han);

輸出是：
漢
這其實也是說，只要你正確的讀入了“漢”這個字，那么它在內(nèi)存中的表示形式一定是0x6C49，沒有任何其他的值能代表這個字（當(dāng)然，如果你讀錯了，那結(jié)果是什么就不知道了，范偉說：讀，讀錯了呀，那還等于好幾億呢；本山大哥說：好幾億你也沒答上，請聽下一題）。

JVM的這種約定使得一個字符存在的世界分為了兩部分：JVM內(nèi)部和OS的文件系統(tǒng)。在JVM內(nèi)部，統(tǒng)一使用UTF-16表示，當(dāng)這個字符被從JVM內(nèi)部移到外部（即保存為文件系統(tǒng)中的一個文件的內(nèi)容時），就進(jìn)行了編碼轉(zhuǎn)換，使用了具體的編碼方案（也有一種很特殊的情況，使得在JVM內(nèi)部也需要轉(zhuǎn)換，不過這個是后話）。
因此可以說，所有的編碼轉(zhuǎn)換就只發(fā)生在邊界的地方，JVM和OS的交界處，也就是你的各種輸入輸出流（或者Reader，Writer類）起作用的地方。
話頭扯到這里就必須接著說Java的IO系統(tǒng)。
盡管看上去混亂繁雜，但是所有的IO基本上可以分為兩大陣營：面向字符的Reader啊Wrtier啊，以及面向字節(jié)的輸入輸出流。
下面我來逐一分解，其實一點也不難。
面向字符和面向字節(jié)中的所謂“面向”什么，是指這些類在處理輸入輸出的時候，在哪個意義上保持一致。如果面向字節(jié)，那么這類工作要保證系統(tǒng)中的文件二進(jìn)制內(nèi)容和讀入JVM內(nèi)部的二進(jìn)制內(nèi)容要一致。不能變換任何0和1的順序。因此這是一種非常“忠實于原著”的做法（偶然間讓我想起郭敬明抄襲莊羽的文章，那家伙，太忠實于原著了，笑）。
這種輸入輸出方式很適合讀入視頻文件或者音頻文件，或者任何不需要做變換的文件內(nèi)容。
而面向字符的IO是指希望系統(tǒng)中的文件的字符和讀入內(nèi)存的“字符”（注意和字節(jié)的區(qū)別）要一致。例如我們的中文版WindowsXP系統(tǒng)上有一個GBK的文本文件，其中有一個“漢”字，這個字的GBK編碼是0xBABA（而UTF-16編碼是0x6C49），當(dāng)我們使用面向字符的IO把它讀入內(nèi)存并保存在一個char型變量中時，我希望IO系統(tǒng)不要傻傻的直接把0xBABA放到這個char型變量中，我甚至都不關(guān)心這個char型變量具體的二進(jìn)制內(nèi)容到底是多少，我只希望這個字符讀進(jìn)來之后仍然是“漢”這個字。
從這個意義上也可以看出，面向字符的IO類，也就是Reader和Writer類，實際上隱式的為我們做了編碼轉(zhuǎn)換，在輸出時，將內(nèi)存中的UTF-16編碼字符使用系統(tǒng)默認(rèn)的編碼方式進(jìn)行了編碼，而在輸入時，將文件系統(tǒng)中已經(jīng)編碼過的字符使用默認(rèn)編碼方案進(jìn)行了還原。我兩次提到“默認(rèn)”，是說Reader和Writer的聰明也僅此而已了，它們只會使用這個默認(rèn)的編碼來做轉(zhuǎn)換，你不能為一個Reader或者Writer指定轉(zhuǎn)換時使用的編碼。這也意味著，如果你使用中文版WindowsXP系統(tǒng)，而上面存放了一個UTF-8編碼的文件，當(dāng)你使用Reader類來讀入的時候，它會傻傻的使用GBK來做轉(zhuǎn)換，轉(zhuǎn)換后的內(nèi)容當(dāng)然驢唇不對馬嘴！
這種笨，有時候其實是一種傻瓜式的功能提供方式，對大多數(shù)初級用戶（以及不需要跨平臺的高級用戶）來說反而是件好事。
但我們不一樣啦，我們都是國家棟梁，肩負(fù)著趕英超美的責(zé)任，必須師夷長技以治夷，所以我們總還要和GBK編碼以外的文件打交道。
說了上面這些內(nèi)容，想必聰明的讀者已經(jīng)看出來，所謂編碼轉(zhuǎn)換就是一個字符與字節(jié)之間的轉(zhuǎn)換，因此Java的IO系統(tǒng)中能夠指定轉(zhuǎn)換編碼的地方，也就在字符與字節(jié)轉(zhuǎn)換的地方，那就是（讀者：InputSteamReader和OutputStreamWriter！作者：太強(qiáng)了，都會搶答了！）
這兩個類是字節(jié)流和字符流之間的適配器類，因此他們肩負(fù)著編碼轉(zhuǎn)換的任務(wù)簡直太自然啦！要注意，實際上也只能在這兩類實例化的時候指定編碼，是不是很好記呢？
下面來寫一段小程序，來把“漢”字用我們非常崇拜的UTF-8編碼寫到文件中！

try{
    PrintWriter out=new PrintWriter(new OutputStreamWriter(new FileOutputStream("c:/utf-8.txt"),"UTF-8"));
    try{
        out.write("漢");
    }finally{
        out.close();
    }
}catch(IOException e){
    throw new RuntimeException(e);
}

運行之后到c盤下去找utf-8.txt這個文件，用UltraEdit打開，使用16進(jìn)制查看，看到了什么？它的值是0xE6B189！（這正是“漢”這個字的UTF-8編碼）噢耶！（讀者：這，這有什么好高興的……）
下一節(jié)我們來看看實現(xiàn)這種操作的其他方式，讀到這里，你已經(jīng)基本上是字符編碼的高手了哦。

發(fā)表于 2008-12-25 10:42 Jasper 閱讀(3753) 評論(7) 編輯收藏所屬分類: 文本分類技術(shù) 、Java技術(shù)

# re: Java中的字符集編碼入門（五）Java代碼中的字符編碼轉(zhuǎn)換Part 1

感謝分享，好文章！
看齊，學(xué)習(xí)

賀利華評論于 2008-12-25 17:07 回復(fù) 更多評論

That's so good! Thanks!

rubby 評論于 2008-12-25 23:05 回復(fù) 更多評論

你的文章寫得太好了,讓人豁然開朗,太崇拜你了.期待更多精彩文章

chenfh 評論于 2008-12-26 16:45 回復(fù) 更多評論

寫得太幫了，有一種醍醐灌頂?shù)母杏X，期待你的下一節(jié)文章！

rainmanyang 評論于 2008-12-27 18:49 回復(fù) 更多評論

真的寫的好。讓我對編碼有了新的認(rèn)識啊。

legendMan 評論于 2008-12-30 15:21 回復(fù) 更多評論

為什么我輸出的是亂碼呢?還有那些細(xì)節(jié)要注意嗎?

legendMan 評論于 2008-12-30 16:17 回復(fù) 更多評論

“下面來寫一段小程序，來把“漢”字用我們非常崇拜的UTF-8編碼寫到文件中！”

為什么叫非常崇拜的UTF-8編碼？

dfsanshi 評論于 2009-03-29 14:22 回復(fù) 更多評論

Java中的字符集編碼入門（五）Java代碼中的字符編碼轉(zhuǎn)換Part 1

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發(fā)新隨筆 \| 發(fā)新文章 \| 聯(lián)系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0