Read Sean

Read me, read Sean.

posts - 508, comments - 655, trackbacks - 9, articles - 4

"已"是如何變成"?·2"的？小記UTF-8編碼

Posted on 2009-05-05 19:24 laogao 閱讀(1166) 評論(0) 編輯收藏所屬分類: Computer Usage 、Programming in General 、The Other Side

本來是手寫的一張草稿，清理臺面的時候，正要扔，發現內容還有點意思，干脆吧，開個隨筆記錄一下，備忘，說不定還能幫到別人。

在我們日常生活和工作中，尤其瀏覽含有中文的網站，時常會為亂碼問題犯愁，一些天生Unicode支持不到位的編程語言和軟件更是加重了這個現象。雖說已經是2009年了，我們時不時還是能碰到一些明顯腦殘的code，吐出一堆亂碼，不論你用選什么字符集，似乎都無法還原最初的中文。比如"?·2"，或者同一個頁面，無法用同一個字符集顯示，任何一種字符都至少有一部分顯示不正確，不是這兒就是那兒。

首先科普一下UTF-8。UTF-8是Unicode所有字符編碼實現中，應用范圍最廣的一個，最大的特點是兼容ASCII碼，在此基礎上，通過1..4個byte來表示每一個Unicode字符。它是怎么做到的？其實很簡單，看首個byte：
00000000 ~ 01111111 : 0~127 (ASCII, 單個byte) 表示Unicode范圍\u0000 ~ \u007F
11000000 ~ 11011111 : (2個1打頭，所以2個byte) 表示Unicode范圍\u0080 ~ \u07FF
11100000 ~ 11101111 : (3個1打頭，所以3個byte) 表示Unicode范圍\u0800 ~ \uFFFF
11110000 ~ 11110111 : (4個1打頭，所以4個byte) 表示Unicode范圍\u10000 ~ \u10FFFF

除了單個byte這個case，其他情況下，后續的byte均以10打頭。這些打頭的bit：10、110、1110、11110，都不作為具體編碼的一部分參與真正Unicode編碼的計算。所以1..4個byte，其有效位數分別為：7、11、16、21，因此才有了\u007F、\u07FF、\uFFFF這樣的臨界值，且4個byte的空間還有富余。

有了這個基礎知識，我們就來具體看看這個"已"字，是怎么被UTF-8表示的，以及為什么處理不當的代碼會最終輸出"?·2"。

"已"字，用Unicode表示法，是\u5DF2，按照2個byte拆開成二進制表示：
01011101 11110010
如果用UTF-8編碼，采用1110???? 10?????? 10??????這個格式，?號部分填入上述01011101 11110010，得到
11100101 10110111 10110010 這樣3個byte。

好了，這個時候腦殘代碼出現，假如它不認識UTF-8，那么他會看到這樣3個前后沒有關聯的byte，在西歐Latin-1字符集(即ISO 8859-1)中，它們分別表示"?"、"·"、"2"這3個字符。如果把它們分別再按照UTF-8編碼，就成了：
11000011 10100101 11000010 10110111 11000010 10110010
完美的UTF-8編碼，只不過，這完全是假象，只能通過非常規手段才能恢復它原本的樣子。

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Mac安裝tsocks [RPi] 樹梅派安裝XBMC并讓其支持中文 IntelliJ IDEA 常用快捷鍵 "上海"是如何變成"涓婃搗"的？ [Tips] 如何給SVN資源庫降級 ssh+tsocks - 遠程辦公利器 [Tips] Emacs字符編碼相關指令 Ubuntu Karmic安裝手記 - T400s [Tips] DIY制表符鍵自動補全(bash) "已"是如何變成"?·2"的？小記UTF-8編碼

Read Sean

導航

公告

常用鏈接

留言簿(29)

隨筆分類(842)

隨筆檔案(507)

文章檔案(4)

Friends' blogs

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

"已"是如何變成"?·2"的？小記UTF-8編碼