jinfeng_wang

          G-G-S,D-D-U!

          BlogJava 首頁(yè) 新隨筆 聯(lián)系 聚合 管理
            400 Posts :: 0 Stories :: 296 Comments :: 0 Trackbacks
          /etc/sysconfig/i18n

          locale 是國(guó)際化與本土化過(guò)程中的一個(gè)非常重要的概念,個(gè)人認(rèn)為,對(duì)于中文用戶來(lái)說(shuō),通常會(huì)涉及到的國(guó)際化或者本土化,大致包含三個(gè)方面:看中文,寫中文,與 window中文系統(tǒng)的兼容和通信。從實(shí)際經(jīng)驗(yàn)上看來(lái),locale的設(shè)定與看中文關(guān)系不大,但是與寫中文,及window分區(qū)的掛載方式有很密切的關(guān)系。本人認(rèn)為就像一個(gè)純英文的Windows能夠?yàn)g覽中文,日文或者意大利文網(wǎng)頁(yè)一樣,你不需要設(shè)定locale就可以看中文。那么,為什么要設(shè)定 locale呢?什么時(shí)候會(huì)用到locale呢?

          Tags: locale 設(shè)定 原因 解釋

          一、為什么要設(shè)定locale 正如前面我所講的,設(shè)定locale與你能否瀏覽中文的網(wǎng)頁(yè)沒(méi)有直接的關(guān)系,即便你把locale設(shè)置成 en_US.ISO-8859-1這樣一個(gè)標(biāo)準(zhǔn)的英文locale你照樣可以瀏覽中文的網(wǎng)頁(yè),只要你的系統(tǒng)里面有相應(yīng)的字符集(這個(gè)都不一定需要)和合適的字體(如simsun),瀏覽器就可以把網(wǎng)頁(yè)翻譯成中文給你看。具體的過(guò)程是網(wǎng)絡(luò)把網(wǎng)頁(yè)傳送到你的機(jī)器上之后,瀏覽器會(huì)判斷相應(yīng)的編碼的字符集,根據(jù)網(wǎng)頁(yè)采用的字符集,去字體庫(kù)里面找合適的字體,然后由文字渲染工具把相應(yīng)的文字在屏幕上顯示出來(lái)。

          在下文本人會(huì)偶爾把字符集比喻成密碼本,個(gè)人覺(jué)得對(duì)于一些東西比較容易理解,假如你不習(xí)慣的話,把全文copy到任何文本編輯器,用字符集替換密碼本即可。

          那有時(shí)候網(wǎng)頁(yè)顯示亂碼或者都是方框是怎么回事呢?個(gè)人認(rèn)為,顯示亂碼是因?yàn)樵O(shè)定的字符集不對(duì)(或者沒(méi)有相應(yīng)的字符集),例如網(wǎng)頁(yè)是用UTF-8編碼的,你非要用GB2312去看,而系統(tǒng)根據(jù)GB2312去找字體,然后在屏幕上顯示,當(dāng)然是一堆的亂碼,也就是說(shuō)你用一個(gè)錯(cuò)誤的密碼本去翻譯發(fā)給你的電報(bào),當(dāng)然內(nèi)容那叫一個(gè)亂;至于有些時(shí)候?yàn)g覽的網(wǎng)頁(yè)能顯示一部分漢字,但有很多的地方是方框,能夠顯示漢字說(shuō)明瀏覽器已經(jīng)正確的判斷出了網(wǎng)頁(yè)的編碼,并在字體庫(kù)里面找到了相應(yīng)的文字,但是并不是每個(gè)字體庫(kù)都包含某個(gè)字符集全部的字體的緣故,有些時(shí)候會(huì)顯示不完全,找一個(gè)比較全的支持較多字符集的字體就可以了。

          既然我能夠?yàn)g覽中文網(wǎng)頁(yè),那為什么我還要設(shè)定locale呢?

          其實(shí)你有沒(méi)有想過(guò)這么一個(gè)問(wèn)題,為什么gentoo官方論壇上中文論壇的網(wǎng)頁(yè)是用UTF-8編碼的(雖然大家一直強(qiáng)烈建議用GB2312編碼),但是新浪網(wǎng)就是用GB2312編碼的呢?而Xorg的官方網(wǎng)頁(yè)竟然是ISO-8859-15編碼的,我沒(méi)有設(shè)定這個(gè)locale怎么一樣的能瀏覽呢?這個(gè)問(wèn)題就像是你有所有的密碼本,不論某個(gè)網(wǎng)站是用什么字符集編碼的,你都可以用你手里的密碼本把他們翻譯過(guò)來(lái),但問(wèn)題是雖然你能瀏覽中文網(wǎng)頁(yè),但是在整個(gè)操作系統(tǒng)里面流動(dòng)的還是英文字符。所以,就像你能聽(tīng)懂英語(yǔ),也能聽(tīng)懂中文。 最根本的問(wèn)題是:你不可以寫中文。

          當(dāng)你決定要寫什么東西的時(shí)候,首先要決定的一件事情是用那種語(yǔ)言,對(duì)于計(jì)算機(jī)來(lái)說(shuō)就是你要是用哪一種字符集,你就必須告訴你的linux系統(tǒng),你想用那一本密碼本去寫你想要寫的東西。知道為什么需要用GB2312字符集去瀏覽新浪了吧,因?yàn)樾吕说木W(wǎng)頁(yè)是用GB2312寫的。

          為了讓你的Linux能夠輸入中文,就需要把系統(tǒng)的locale設(shè)定成中文的(嚴(yán)格說(shuō)來(lái)是locale中的語(yǔ)言類別LC_CTYPE ),例如 zh_CN.GB2312、zh_CN.GB18030或者zh_CN.UTF-8。很多人都不明白這些古里古怪的表達(dá)方式。這個(gè)外星表達(dá)式規(guī)定了什么東西呢?這個(gè)問(wèn)題稍后詳述,現(xiàn)在只需要知道,這是locale的表達(dá)方式就可以了。

          locale這個(gè)單詞中文翻譯成地區(qū)或者地域,其實(shí)這個(gè)單詞包含的意義要寬泛很多。Locale是根據(jù)計(jì)算機(jī)用戶所使用的語(yǔ)言,所在國(guó)家或者地區(qū),以及當(dāng)?shù)氐奈幕瘋鹘y(tǒng)所定義的一個(gè)軟件運(yùn)行時(shí)的語(yǔ)言環(huán)境。

          [oracle@game ~]$ locale
          LANG=en_US.UTF-8
          LC_CTYPE="en_US.UTF-8"
          LC_NUMERIC="en_US.UTF-8"
          LC_TIME="en_US.UTF-8"
          LC_COLLATE="en_US.UTF-8"
          LC_MONETARY="en_US.UTF-8"
          LC_MESSAGES="en_US.UTF-8"
          LC_PAPER="en_US.UTF-8"
          LC_NAME="en_US.UTF-8"
          LC_ADDRESS="en_US.UTF-8"
          LC_TELEPHONE="en_US.UTF-8"
          LC_MEASUREMENT="en_US.UTF-8"
          LC_IDENTIFICATION="en_US.UTF-8"
          LC_ALL=en_US.UTF-8
          [oracle@game ~]$

          locale把按照所涉及到的文化傳統(tǒng)的各個(gè)方面分成12個(gè)大類,這12個(gè)大類分別是:

          1、語(yǔ)言符號(hào)及其分類(LC_CTYPE)
          2、數(shù)字(LC_NUMERIC)
          3、比較和排序習(xí)慣(LC_COLLATE)
          4、時(shí)間顯示格式(LC_TIME)
          5、貨幣單位(LC_MONETARY)
          6、信息主要是提示信息,錯(cuò)誤信息,狀態(tài)信息,標(biāo)題,標(biāo)簽,按鈕和菜單等(LC_MESSAGES)
          7、姓名書寫方式(LC_NAME)
          8、地址書寫方式(LC_ADDRESS)
          9、電話號(hào)碼書寫方式(LC_TELEPHONE)
          10、度量衡表達(dá)方式 (LC_MEASUREMENT)
          11、默認(rèn)紙張尺寸大小(LC_PAPER)
          12、對(duì)locale自身包含信息的概述(LC_IDENTIFICATION)。


          所以說(shuō),locale就是某一個(gè)地域內(nèi)的人們的語(yǔ)言習(xí)慣和文化傳統(tǒng)和生活習(xí)慣。一個(gè)地區(qū)的locale就是根據(jù)這幾大類的習(xí)慣定義的,這些locale定義文件放在/usr/share/i18n/locales目錄下面,例如en_US, zh_CN and de_DE@euro都是locale的定義文件,這些文件都是用文本格式書寫的,你可以用寫字板打開(kāi),看看里邊的內(nèi)容,當(dāng)然出了有限的注釋以外,大部分東西可能你都看不懂,因?yàn)槭怯玫腢nicode的字符索引方式。

          [oracle@game ~]$ cd /usr/share/i18n/locales
          [oracle@game locales]$ ls
          aa_DJ        ar_YE       el_GR       es_ES       fr_CH           iso14651_t1 ne_NP       so_ET                  translit_hangul
          aa_ER        az_AZ       el_GR@euro es_ES@euro fr_FR           it_CH        nl_BE       so_KE                  translit_narrow
          aa_ER@saaho be_BY       en_AU       es_GT       fr_FR@euro      it_IT        nl_BE@euro so_SO                  translit_neutral
          aa_ET        bg_BG       en_BW       es_HN       fr_LU           it_IT@euro   nl_NL       sq_AL                  translit_small
          af_ZA        bn_BD       en_CA       es_MX       fr_LU@euro      iw_IL        nl_NL@euro sr_CS                  translit_wide
          am_ET        bn_IN       en_DK       es_NI       ga_IE           ja_JP        nn_NO       st_ZA                  tr_TR
          an_ES        br_FR       en_GB       es_PA       ga_IE@euro      ka_GE        no_NO       sv_FI                  tt_RU
          ar_AE        br_FR@euro en_HK       es_PE       gd_GB           kk_KZ        oc_FR       sv_FI@euro             uk_UA
          ar_BH        bs_BA       en_IE       es_PR       gez_ER          kl_GL        om_ET       sv_SE                  ur_PK
          ar_DZ        byn_ER      en_IE@euro es_PY       gez_ER@abegede kn_IN        om_KE       ta_IN                  uz_UZ
          ar_EG        ca_ES       en_IN       es_SV       gez_ET          ko_KR        pa_IN       te_IN                  uz_UZ@cyrillic
          ar_IN        ca_ES@euro en_NZ       es_US       gez_ET@abegede kw_GB        pl_PL       tg_TJ                  vi_VN
          ar_IQ        cs_CZ       en_PH       es_UY       gl_ES           lg_UG        POSIX       th_TH                  wa_BE
          ar_JO        cy_GB       en_SG       es_VE       gl_ES@euro      lo_LA        pt_BR       ti_ER                  wa_BE@euro
          ar_KW        da_DK       en_US       et_EE       gu_IN           lt_LT        pt_PT       ti_ET                  wal_ET
          ar_LB        de_AT       en_ZA       eu_ES       gv_GB           lv_LV        pt_PT@euro tig_ER                 xh_ZA
          ar_LY        de_AT@euro en_ZW       eu_ES@euro he_IL           mi_NZ        ro_RO       tl_PH                  yi_US
          ar_MA        de_BE       es_AR       fa_IR       hi_IN           mk_MK        ru_RU       translit_circle        zh_CN
          ar_OM        de_BE@euro es_BO       fi_FI       hr_HR           ml_IN        ru_UA       translit_cjk_compat    zh_HK
          ar_QA        de_CH       es_CL       fi_FI@euro hu_HU           mn_MN        se_NO       translit_cjk_variants zh_SG
          ar_SA        de_DE       es_CO       fo_FO       hy_AM           mr_IN        sid_ET      translit_combining     zh_TW
          ar_SD        de_DE@euro es_CR       fr_BE       i18n            ms_MY        sk_SK       translit_compat        zu_ZA
          ar_SY        de_LU       es_DO       fr_BE@euro id_ID           mt_MT        sl_SI       translit_font
          ar_TN        de_LU@euro es_EC       fr_CA       is_IS           nb_NO        so_DJ       translit_fraction
          [oracle@game locales]$

          對(duì)于de_DE@euro的一點(diǎn)說(shuō)明,@后邊是修正項(xiàng),也就是說(shuō)你可以看到兩個(gè)德國(guó)的locale:/usr/share/i18n/locales /de_DE@euro和/usr/share/i18n/locales/de_DE。打開(kāi)這兩個(gè)locale定義,你就會(huì)知道它們的差別在于 de_DE@euro使用的是歐洲的排序、比較和縮進(jìn)習(xí)慣,而de_DE用的是德國(guó)的標(biāo)準(zhǔn)習(xí)慣。

          上面我們說(shuō)到了zh_CN.GB18030的前半部分,后半部分是什么呢?大部分Linux用戶都知道是系統(tǒng)采用的字符集。


          zh_CN.GB2312到底是在說(shuō)什么? Locale是軟件在運(yùn)行時(shí)的語(yǔ)言環(huán)境, 它包括語(yǔ)言(Language), 地域 (Territory) 和字符集(Codeset)。一個(gè)locale的書寫格式為: 語(yǔ)言[_地域[.字符集]]。所以說(shuō)呢,locale總是和一定的字符集相聯(lián)系的。下面舉幾個(gè)例子:

          1、我說(shuō)中文,身處中華人民共和國(guó),使用國(guó)標(biāo)2312字符集來(lái)表達(dá)字符。zh_CN.GB2312=中文_中華人民共和國(guó)+國(guó)標(biāo)2312字符集。

          2、我說(shuō)中文,身處中華人民共和國(guó),使用國(guó)標(biāo)18030字符集來(lái)表達(dá)字符。zh_CN.GB18030=中文_中華人民共和國(guó)+國(guó)標(biāo)18030字符集。

          3、我說(shuō)中文,身處中華人民共和國(guó)臺(tái)灣省,使用國(guó)標(biāo)Big5字符集來(lái)表達(dá)字符。zh_TW.BIG5=中文_臺(tái)灣.大五碼字符集

          4、我說(shuō)英文,身處大不列顛,使用ISO-8859-1字符集來(lái)表達(dá)字符。 en_GB.ISO-8859-1=英文_大不列顛.ISO-8859-1字符集

          5、我說(shuō)德語(yǔ),身處德國(guó),使用UTF-8字符集,習(xí)慣了歐洲風(fēng)格。
          de_DE.UTF-8@euro=德語(yǔ)_德國(guó).UTF-8字符集@按照歐洲習(xí)慣加以修正,注意不是de_DE@euro.UTF-8,所以完全的locale表達(dá)方式是 [語(yǔ)言[_地域][.字符集] [@修正值]。

          其中,與中文輸入關(guān)系最密切的就是LC_CTYPE,LC_CTYPE規(guī)定了系統(tǒng)內(nèi)有效的字符以及這些字符的分類,諸如什么是大寫字母,小寫字母,大小寫轉(zhuǎn)換,標(biāo)點(diǎn)符號(hào)、可打印字符和其他的字符屬性等方面。而locale定義zh_CN中最最重要的一項(xiàng)就是定義了漢字(Class“hanzi”)這一個(gè)大類,當(dāng)然也是用Unicode描述的,這就讓中文字符在Linux系統(tǒng)中成為合法的有效字符,而且不論它們是用什么字符集編碼的。

          怎樣設(shè)定locale呢?

          設(shè)定locale就是設(shè)定12大類的locale分類屬性,即12個(gè)LC_*。除了這12個(gè)變量可以設(shè)定以外,為了簡(jiǎn)便起見(jiàn),還有兩個(gè)變量:LC_ALL和LANG。它們之間有一個(gè)優(yōu)先級(jí)的關(guān)系:LC_ALL > LC_* >LANG可以這么說(shuō),LC_ALL是最上級(jí)設(shè)定或者強(qiáng)制設(shè)定,而LANG是默認(rèn)設(shè)定值。

          1、如果你設(shè)定了LC_ALL=zh_CN.UTF-8,那么不管LC_*和LANG設(shè)定成什么值,它們都會(huì)被強(qiáng)制服從LC_ALL的設(shè)定,成為 zh_CN.UTF-8。

          2、假如你設(shè)定了LANG=zh_CN.UTF-8,而其他的LC_*=en_US.UTF-8,并且沒(méi)有設(shè)定LC_ALL的話,那么系統(tǒng)的locale設(shè)定以LC_*=en_US.UTF-8。

          3、假如你設(shè)定了LANG=zh_CN.UTF-8,而其他的LC_*,和LC_ALL均未設(shè)定的話,系統(tǒng)會(huì)將LC_*設(shè)定成默認(rèn)值,也就是LANG的值z(mì)h_CN.UTF-8。

          4、假如你設(shè)定了LANG=zh_CN.UTF-8,而其他的LC_CTYPE=en_US.UTF-8,其他的LC_*,和LC_ALL均未設(shè)定的話,那么系統(tǒng)的locale設(shè)定將是:LC_CTYPE=en_US.UTF-8,其余的 LC_COLLATE,LC_MESSAGES等等均會(huì)采用默認(rèn)值,也就是 LANG的值,也就是LC_COLLATE=LC_MESSAGES=……= LC_PAPER=LANG=zh_CN.UTF-8。

          所以,locale是這樣設(shè)定的:

          1、如果你需要一個(gè)純中文的系統(tǒng)的話,設(shè)定LC_ALL= zh_CN.XXXX,或者LANG=zh_CN.XXXX都可以,當(dāng)然你可以兩個(gè)都設(shè)定,但正如上面所講,LC_ALL的值將覆蓋所有其他的locale設(shè)定,不要作無(wú)用功。

          2、如果你只想要一個(gè)可以輸入中文的環(huán)境,而保持菜單、標(biāo)題,系統(tǒng)信息等等為英文界面,那么只需要設(shè)定 LC_CTYPE=zh_CN.XXXX,LANG=en_US.XXXX就可以了。這樣LC_CTYPE=zh_CN.XXXX,而LC_COLLATE=LC_MESSAGES=……= LC_PAPER=LANG=en_US.XXXX。

          3、假如你高興的話,可以把12個(gè)LC_*一一設(shè)定成你需要的值,打造一個(gè)古靈精怪的系統(tǒng): LC_CTYPE=zh_CN.GBK/GBK(使用中文編碼內(nèi)碼GBK字符集); LC_NUMERIC=en_GB.ISO-8859-1(使用大不列顛的數(shù)字系統(tǒng)) LC_MEASUREMEN=de_DE@euro.ISO-8859-15(德國(guó)的度量衡使用ISO-8859-15字符集) 羅馬的地址書寫方式,美國(guó)的紙張?jiān)O(shè)定……。估計(jì)沒(méi)人這么干吧。

          4、假如你什么也不做的話,也就是LC_ALL,LANG和LC_*均不指定特定值的話,系統(tǒng)將采用POSIX作為lcoale,也就是C locale。


          另外LANG和LANGUAGE有什么區(qū)別呢?

          LANG - Specifies the default locale for all unset locale variables
          LANGUAGE - Most programs use this for the language of its interface
          LANGUAGE是設(shè)置應(yīng)用程序的界面語(yǔ)言。而LANG是優(yōu)先級(jí)很低的一個(gè)變量,它指定所有與locale有關(guān)的變量的默認(rèn)值,

          posted on 2009-05-18 22:48 jinfeng_wang 閱讀(1465) 評(píng)論(0)  編輯  收藏 所屬分類: ZZ 、Linux
          主站蜘蛛池模板: 永兴县| 巴楚县| 新竹县| 霍林郭勒市| 张掖市| 元朗区| 扎囊县| 上虞市| 灌云县| 漳平市| 寿宁县| 土默特左旗| 蒲江县| 丰都县| 石城县| 垣曲县| 赫章县| 清新县| 敦化市| 浪卡子县| 武鸣县| 邢台市| 从化市| 镇宁| 江西省| 浪卡子县| 清水河县| 普定县| 元阳县| 永济市| 友谊县| 唐河县| 常宁市| 靖西县| 祁连县| 错那县| 清镇市| 恩平市| 河南省| 新巴尔虎右旗| 从化市|