海上月明

          editer by sun
          posts - 162, comments - 51, trackbacks - 0, articles - 8
             :: 首頁 :: 新隨筆 ::  :: 聚合  :: 管理

          [轉]Python中文全攻略

          Posted on 2008-01-20 15:37 pts 閱讀(521) 評論(0)  編輯  收藏 所屬分類: Python
           轉自| 2007-10-16 10:54:29

          1.        在Python中使用中文
          在Python中有兩種默認的字符串:str和unicode。在Python中一定要注意區分“Unicode字符串”和“unicode對象”的區別。后面所有的“unicode字符串”指的都是python里的“unicode對象”。
          事實上在Python中并沒有“Unicode字符串”這樣的東西,只有“unicode”對象。一個傳統意義上的unicode字符串完全可以用str對象表示。只是這時候它僅僅是一個字節流,除非解碼為unicode對象,沒有任何實際的意義。
          我們用“哈哈”在多個平臺上測試,其中“哈”對應的不同編碼是:
          1.              UNICODE (UTF8-16),      C854
          2.              UTF-8,                    E59388
          3.              GBK,               B9FE
          1.1     Windows控制臺
          下面是在windows控制臺的運行結果:
          可以看出在控制臺,中文字符的編碼是GBK而不是UTF-16。將字符串s(GBK編碼)使用decode進行解碼后,可以得到同等的unicode對象。
          注意:可以在控制臺打印ss并不代表它可以直接被序列化,比如:

          向文件直接輸出ss會拋出同樣的異常。在處理unicode中文字符串的時候,必須首先對它調用encode函數,轉換成其它編碼輸出。這一點對各個環境都一樣。

          總結:在Python中,“str”對象就是一個字節數組,至于里面的內容是不是一個合法的字符串,以及這個字符串采用什么編碼(gbk, utf-8, unicode)都不重要。這些內容需要用戶自己記錄和判斷。這些的限制也同樣適用于“unicode”對象。要記住“unicode”對象中的內容可絕對不一定就是合法的unicode字符串,我們很快就會看到這種情況。
          總結:在windows的控制臺上,支持gbk編碼的str對象和unicode編碼的unicode對象。
          1.2     Windows IDLE(在Shell上運行)
          在windows下的IDLE中,運行效果和windows控制臺不完全一致:
          可以看出,對于不使用“u”作標識的字符串,IDLE把其中的中文字符進行GBK編碼。但是對于使用“u”的unicode字符串,IDLE居然一樣是用了GBK編碼,不同的是,這時候每一個字符都是unicode(對象)字符!!此時len(ss) = 4。
          這樣產生了一個神奇的問題,現在的ss無法在IDLE中正常顯示。而且我也沒有辦法把ss轉換成正常的編碼!比如采用下面的方法:
          這有可能是因為IDLE本地化做得不夠好,對中文的支持有問題。建議在IDLE的SHELL中,不要使用u“中文“


          Powered by ScribeFire.

          主站蜘蛛池模板: 营口市| 霍林郭勒市| 西藏| 山东| 河津市| 体育| 巍山| 噶尔县| 乐至县| 湘乡市| 滨海县| 庆阳市| 丹江口市| 如东县| 调兵山市| 靖江市| 云阳县| 绥中县| 区。| 黄浦区| 商丘市| 彭水| 连城县| 册亨县| 星座| 宁阳县| 瑞丽市| 马公市| 股票| 阿克苏市| 建湖县| 宁城县| 新民市| 广平县| 务川| 琼海市| 罗源县| 吉林省| 峨眉山市| 芦山县| 大石桥市|