"已"是如何變成"?·2"的?小記UTF-8編碼
Posted on 2009-05-05 19:24 laogao 閱讀(1162) 評(píng)論(0) 編輯 收藏 所屬分類: Computer Usage 、Programming in General 、The Other Side本來是手寫的一張草稿,清理臺(tái)面的時(shí)候,正要扔,發(fā)現(xiàn)內(nèi)容還有點(diǎn)意思,干脆吧,開個(gè)隨筆記錄一下,備忘,說不定還能幫到別人。
在我們?nèi)粘I詈凸ぷ髦校绕錇g覽含有中文的網(wǎng)站,時(shí)常會(huì)為亂碼問題犯愁,一些天生Unicode支持不到位的編程語言和軟件更是加重了這個(gè)現(xiàn)象。雖說已經(jīng)是2009年了,我們時(shí)不時(shí)還是能碰到一些明顯腦殘的code,吐出一堆亂碼,不論你用選什么字符集,似乎都無法還原最初的中文。比如"?·2",或者同一個(gè)頁面,無法用同一個(gè)字符集顯示,任何一種字符都至少有一部分顯示不正確,不是這兒就是那兒。
首先科普一下UTF-8。UTF-8是Unicode所有字符編碼實(shí)現(xiàn)中,應(yīng)用范圍最廣的一個(gè),最大的特點(diǎn)是兼容ASCII碼,在此基礎(chǔ)上,通過1..4個(gè)byte來表示每一個(gè)Unicode字符。它是怎么做到的?其實(shí)很簡(jiǎn)單,看首個(gè)byte:
00000000 ~ 01111111 : 0~127 (ASCII, 單個(gè)byte) 表示Unicode范圍\u0000 ~ \u007F
11000000 ~ 11011111 : (2個(gè)1打頭,所以2個(gè)byte) 表示Unicode范圍\u0080 ~ \u07FF
11100000 ~ 11101111 : (3個(gè)1打頭,所以3個(gè)byte) 表示Unicode范圍\u0800 ~ \uFFFF
11110000 ~ 11110111 : (4個(gè)1打頭,所以4個(gè)byte) 表示Unicode范圍\u10000 ~ \u10FFFF
除了單個(gè)byte這個(gè)case,其他情況下,后續(xù)的byte均以10打頭。這些打頭的bit:10、110、1110、11110,都不作為具體編碼的一部分參與真正Unicode編碼的計(jì)算。所以1..4個(gè)byte,其有效位數(shù)分別為:7、11、16、21,因此才有了\u007F、\u07FF、\uFFFF這樣的臨界值,且4個(gè)byte的空間還有富余。
有了這個(gè)基礎(chǔ)知識(shí),我們就來具體看看這個(gè)"已"字,是怎么被UTF-8表示的,以及為什么處理不當(dāng)?shù)拇a會(huì)最終輸出"?·2"。
"已"字,用Unicode表示法,是\u5DF2,按照2個(gè)byte拆開成二進(jìn)制表示:
01011101 11110010
如果用UTF-8編碼,采用1110???? 10?????? 10??????這個(gè)格式,?號(hào)部分填入上述01011101 11110010,得到
11100101 10110111 10110010 這樣3個(gè)byte。
好了,這個(gè)時(shí)候腦殘代碼出現(xiàn),假如它不認(rèn)識(shí)UTF-8,那么他會(huì)看到這樣3個(gè)前后沒有關(guān)聯(lián)的byte,在西歐Latin-1字符集(即ISO 8859-1)中,它們分別表示"?"、"·"、"2"這3個(gè)字符。如果把它們分別再按照UTF-8編碼,就成了:
11000011 10100101 11000010 10110111 11000010 10110010
完美的UTF-8編碼,只不過,這完全是假象,只能通過非常規(guī)手段才能恢復(fù)它原本的樣子。