Unicode 問答集
問:什么是Unicode?
答:Unicode給每個(gè)字符提供了一個(gè)唯一的數(shù)字,不論是什么平臺,不論是什么程序,不論什么語言。Unicode標(biāo)準(zhǔn)已經(jīng)被這些工業(yè)界的領(lǐng)導(dǎo)們所采用,例如:Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它許多公司。最新的標(biāo)準(zhǔn)都需要Unicode,例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等,并且,Unicode是實(shí)現(xiàn)ISO/IEC 10646的正規(guī)方式。許多操作系統(tǒng),所有最新的瀏覽器和許多其他產(chǎn)品都支持它。Unicode標(biāo)準(zhǔn)的出現(xiàn)和支持它工具的存在,是近來全球軟件技術(shù)最重要的發(fā)展趨勢。
問:為什么使用Unicode?
答:基本上,計(jì)算機(jī)只是處理數(shù)字。它們指定一個(gè)數(shù)字,來儲存字母或其他字符。在創(chuàng)造Unicode之前,有數(shù)百種指定這些數(shù)字的編碼系統(tǒng)。沒有一個(gè)編碼可以包含足夠的字符:例如,單單歐州共同體就需要好幾種不同的編碼來包括所有的語言。即使是單一種語言,例如英語,也沒有哪一個(gè)編碼可以適用于所有的字母,標(biāo)點(diǎn)符號,和常用的技術(shù)符號。這些編碼系統(tǒng)也會互相沖突。也就是說,兩種編碼可能使用相同的數(shù)字代表兩個(gè)不同的字符,或使用不同的數(shù)字代表相同的字符。任何一臺特定的計(jì)算機(jī)(特別是服務(wù)器)都需要支持許多不同的編碼,但是,不論什么時(shí)候數(shù)據(jù)通過不同的編碼或平臺之間,那些數(shù)據(jù)總會有損壞的危險(xiǎn)。
問:舉個(gè)例子吧。
答:比如,簡體中文(GB)、繁體中文(BIG5)、日文中,“趙”都是一個(gè)字,但是編碼不同。在不同的編碼下,BIG5的趙是0xBBAF,而0xBBAF在GB里面就被顯示為“化”,這就是亂碼。而Unicode采用統(tǒng)一的編碼,“趙”只有一個(gè),不必管他在哪種文字里。
問:Unicode的優(yōu)點(diǎn)是什么?
答:舉一個(gè)最明顯的例子就是Windows 2000/XP以及微軟Office2000及其后的產(chǎn)品。因?yàn)檫@些軟件都是Unicode內(nèi)核,因此,無論何種文字,都可以在上面正常顯示,而且是同屏顯示。以前,簡體中文的Word文件拿到英文版打開就會是亂碼,簡體中文的程序在Windows英文版上運(yùn)行會出現(xiàn)亂碼,而現(xiàn)在一切都解決了。
問:中國京劇戲考為什么使用Unicode?
答:因?yàn)橛行﹦”局械纳ё?,只在擴(kuò)展字庫或繁體字庫中才有,有的甚至沒有。而Unicode不僅包含了所有常用字和大部分生僻字,而且因?yàn)槠淇蓴U(kuò)展,在現(xiàn)在沒有的情況下,將來也是可以擴(kuò)充的。例如最新的Unicode 4.0標(biāo)準(zhǔn),較3.0增加了很多生僻字。目前有70207個(gè)漢字。再有一點(diǎn)就是Unicode在將來會取代現(xiàn)有的GBK及BIG5。
問:我如何能夠看到不是亂碼的劇本?
答:如果您閱讀PDF的格式,只需要有Adobe Reader即可。如果您是在網(wǎng)站上直接閱讀劇本,有時(shí)可能會出現(xiàn)亂碼,請查看菜單(或右鍵單擊劇本)中,選擇編碼,然后點(diǎn)Unicode (UTF-8) 即可。注意,有些字在早期的 Unicode 定義中還沒有,所以建議您閱讀PDF格式的劇本。詳情請見這里。