String str = "漢語"; |
會發現,實際輸出的是 0xFE FF 6C 49 8B ED。多出來的0xFE FF,是Unicode字符串的BOM(Byte Order Mark)。但是為什么輸出的順序(0xFE FF 6C 49 8B ED)和文件中的順序不一致(0xFF FE 49 6C ED 8B)?
public byte[] getBytes(Charset charset) 使用指定的字符集將此 String 解碼為字節序列,并將結果存儲到一個新的字節數組中。如果不指定參數,則使用系統默認的字符集,對于簡體中文系統一般為GBK。
看程序:
class EncodingExer |
在這個過程中,由Unicode字符得到字符串“漢語”,然后解碼得到了GBK字節序列。與String.getBytes()相對應的是new String(byte[] bytes,Charset charset),它的作用是用字節序列生成字符串。如果想由剛才的GBK字節序列得到原來的字符串“漢語”,我們需要做的是:new String(b) 就可以了。將b按照GBK編碼得到字符串“漢語”,然后轉化為Unicode字符。如果是str.getBytes("iso-8859-1"),那么還原的時候就是new String(b,"iso-8859-1")。總之就是用什么方式編碼,就用什么方式解碼。