大漠駝鈴

          置身浩瀚的沙漠,方向最為重要,希望此blog能向大漠駝鈴一樣,給我方向和指引。
          Java,Php,Shell,Python,服務器運維,大數據,SEO, 網站開發、運維,云服務技術支持,IM服務供應商, FreeSwitch搭建,技術支持等. 技術討論QQ群:428622099
          隨筆 - 238, 文章 - 3, 評論 - 117, 引用 - 0
          數據加載中……

          python 中文亂碼

          http://blog.chinaunix.net/u/3204/showart_389639.html

          http://www.woodpecker.org.cn/diveintopython/xml_processing/unicode.html

          python的中文問題一直是困擾新手的頭疼問題,這篇文章將給你詳細地講解一下這方面的知識。當然,幾乎可以確定的是,在將來的版本中,python會徹底解決此問題,不用我們這么麻煩了。

          先來看看python的版本:
          >>> import sys
          >>> sys.version
          '2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [MSC v.1310 32 bit (Intel)]'

          (一)
          用記事本創建一個文件ChineseTest.py,默認ANSI:
          s = "中文"
          print s

          測試一下瞧瞧:
          E:\Project\Python\Test>python ChineseTest.py

          File "ChineseTest.py", line 1
          SyntaxError: Non-ASCII character '\xd6' in file ChineseTest.py on line 1, but no encoding declared ; see http://www.python.org/peps/pep-0263.html for details

          偷偷地把文件編碼改成UTF-8:
          E:\Project\Python\Test>python ChineseTest.py
            File "ChineseTest.py", line 1
          SyntaxError: Non-ASCII character '\xe4' in file ChineseTest.py on line 1, but no encoding declared ; see http://www.pytho
          n.org/peps/pep-0263.html for details

          無濟于事。。。
          既然它提供了網址,那就看看吧。簡單地瀏覽一下,終于知道如果文件里有非ASCII字符,需要在第一行或第二行指定編碼聲明。把ChineseTest.py文件的編碼重新改為ANSI,并加上編碼聲明:
          # coding=gbk
          s = "中文"
          print s

          再試一下:
          E:\Project\Python\Test>python ChineseTest.py
          中文

          正常咯:)
          (二)
          看一看它的長度:
          # coding=gbk
          s = "中文"
          print len(s)
          結果:4。
          s這里是str類型,所以計算的時候一個中文相當于兩個英文字符,因此長度為4。
          我們這樣寫:
          # coding=gbk
          s = "中文"
          s1 = u"中文"
          s2 = unicode(s, "gbk") #省略參數將用python默認的ASCII來解碼
          s3 = s.decode("gbk") #把str轉換成unicode是decode,unicode函數作用與之相同
          print len(s1)
          print len(s2)
          print len(s3)
          結果:
          2
          2
          2
          (三)
          接著來看看文件的處理:
          建立一個文件test.txt,文件格式用ANSI,內容為:
          abc中文
          用python來讀取
          # coding=gbk
          print open("Test.txt").read()
          結果:abc中文
          把文件格式改成UTF-8:
          結果:abc涓枃
          顯然,這里需要解碼:
          # coding=gbk
          import codecs
          print open("Test.txt").read().decode("utf-8")
          結果:abc中文
          上面的test.txt我是用Editplus來編輯的,但當我用Windows自帶的記事本編輯并存成UTF-8格式時,
          運行時報錯:
          Traceback (most recent call last):
            File "ChineseTest.py", line 3, in <module>
              print open("Test.txt").read().decode("utf-8")
          UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence

          原來,某些軟件,如notepad,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。
          因此我們在讀取時需要自己去掉這些字符,python中的codecs module定義了這個常量:
          # coding=gbk
          import codecs
          data = open("Test.txt").read()
          if data[:3] == codecs.BOM_UTF8:
          data = data[3:]
          print data.decode("utf-8")
          結果:abc中文

          (四)一點遺留問題
          在第二部分中,我們用unicode函數和decode方法把str轉換成unicode。為什么這兩個函數的參數用"gbk"呢?
          第一反應是我們的編碼聲明里用了gbk(# coding=gbk),但真是這樣?
          修改一下源文件:
          # coding=utf-8
          s = "中文"
          print unicode(s, "utf-8")
          運行,報錯:
          Traceback (most recent call last):
            File "ChineseTest.py", line 3, in <module>
              s = unicode(s, "utf-8")
          UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data
          顯然,如果前面正常是因為兩邊都使用了gbk,那么這里我保持了兩邊utf-8一致,也應該正常,不至于報錯。
          更進一步的例子,如果我們這里轉換仍然用gbk:
          # coding=utf-8
          s = "中文"
          print unicode(s, "gbk")
          結果:中文
          翻閱了一篇英文資料,它大致講解了python中的print原理:
          When Python executes a print statement, it simply passes the output to the operating system (using fwrite() or something like it), and some other program is responsible for actually displaying that output on the screen. For example, on Windows, it might be the Windows console subsystem that displays the result. Or if you're using Windows and running Python on a Unix box somewhere else, your Windows SSH client is actually responsible for displaying the data. If you are running Python in an xterm on Unix, then xterm and your X server handle the display.

          To print data reliably, you must know the encoding that this display program expects.

          簡單地說,python中的print直接把字符串傳遞給操作系統,所以你需要把str解碼成與操作系統一致的格式。Windows使用CP936(幾乎與gbk相同),所以這里可以使用gbk。
          最后測試:
          # coding=utf-8
          s = "中文"
          print unicode(s, "cp936")
          結果:中文



          Python的中文處理及其它
          Posted by 令狐蟲
          前段時間猛禽在寫他的第一個Python程序,期間一直向我抱怨說Python的中文處理有這樣那樣的問題。說句實話我之前并沒有花過很大的精力在這種編碼處理方面,不過我很納悶,難道Python的編碼處理能力真這么弱么?于是去做了一些試驗,現在來簡單的聊幾句。

          我們知道在Unicode出現之前,處理中文是一件非常麻煩的事情。因為沒有自己的獨立編碼,GB(GB2312、GBK、GB18030)碼是用2個多個ASCII字符來表示的,這就帶來了和ASCII碼的區分、字數統計等等一系列的問題。而在Unicode中,中文、英文以及其它很多字符都有自己獨立的編碼,這樣一來,就沒有上述問題了。因此,在可能的環境中,使用Unicode處理中文,是最好的選擇。


          一般來說,對中文處理的主要流程可以如下:

          原始字符串用相應的編碼轉為Unicode
          中間處理一律采用Unicode
          將Unicode轉成需要的編碼輸出
          在Python中,跟Unicode相關的元素有以下幾個:u前綴、unicode函數、codecs。他們有什么聯系和區別么?

          u前綴表示后面跟的那個字符串常量是一個Unicode字符串。但它僅僅表示這是一個Unicode字符串,對字符串本身的編碼卻沒有做任何改變。比如:

          s = u"測試"
          s的值是:

          u'\xb2\xe2\xca\xd4'


          s = "測試"
          s的值是:

          '\xb2\xe2\xca\xd4'
          可以看到,除了前面的u前綴外,字符內部編碼沒有絲毫差別。因此,我們要得到一個Unicode的中文字符串,u前綴并不是一個好方法。那么u前綴有什么作用呢?我的猜想是對非英語字符可能能起作用,未經證實,猜錯不管。

          和u前綴不同,unicode函數有一個轉換編碼的過程,在轉換過程中,用到了codecs。

          s = unicode("測試", "gb2312")
          s的值是:

          u'\u6d4b\u8bd5'
          可以看到,這時的s,是一個真正的雙字節Unicode編碼字符串了。

          結合上面的中文處理流程,我們可以得到一個比較一般的Python中文處理的流程:

          將欲處理的字符串用unicode函數,以正確的編碼轉換為Unicode
          在程序中統一用Unicode字符串進行操作
          輸出時,使用encode方法,將Unicode再轉換為所需的編碼。
          下面是一個簡單的演示,用re庫查詢一個中文字符串并打印:


          >>> p = re.compile(unicode("測試(.*)", "gb2312"))
          >>> s = unicode("測試一二三", "gb2312")
          >>> for i in p.findall(s):
                print i.encode("gb2312")
          一二三
          有幾點要說明一下:

          所謂“正確的”編碼,指得是指定編碼和字符串本身的編碼必須一致。這個其實并不那么容易判斷,一般來說,我們直接輸入的簡體中文字符,有兩種可能的編碼:GB2312(GBK、GB18030)、以及UTF-8。
          encode成本地編碼的時候,必須要保證目標編碼中存在欲轉換字符的內碼。encode這種操作一般是通過一個本地編碼對應Unicode的編碼轉換表來進行的,事實上每個本地編碼只能映射到Unicode的一部分。但是映射的區域是不同的,比如Big-5對應的Unicode的編碼范圍和 GBK對應的就不一樣(實際上這兩個編碼有部分范圍是重疊的)。所以,Unicode的一些字符(比如本身就是從GB2312轉換來的那些),可以映射到 GBK,但未必可以映射到Big-5,如果你想轉換到Big-5,很有可能就會出現編碼找不到的異常。但UTF-8的碼表范圍實際上和Unicode是一樣的(只是編碼形式不同而已),所以,理論上來說,任何本地編碼的字符,都可以被轉換到UTF-8。
          PS1: GB2312、GBK、GB18030本質上是同一種編碼標準。只是在前者的基礎上擴充了字符數量。

          我試過了,我的py文件編碼是UTF-8,但是使用#coding UTF-8和#coding GBK都不行,只有#coding cp936可以。我的操作系統是XP。Python 2.6

          Python代碼
          1. # coding=cp936  
          2. s = "中文"  
          3. print unicode(s, "cp936")  
           

          來源:http://blog.sina.com.cn/s/blog_5d687bea0100bm88.html

          posted on 2011-03-04 16:23 草原上的駱駝 閱讀(3796) 評論(0)  編輯  收藏


          只有注冊用戶登錄后才能發表評論。


          網站導航:
          博客園   IT新聞   Chat2DB   C++博客   博問  
           
          主站蜘蛛池模板: 保亭| 哈密市| 元朗区| 辽宁省| 两当县| 上杭县| 措勤县| 观塘区| 杨浦区| 紫金县| 红河县| 天柱县| 玛多县| 台北县| 永清县| 外汇| 桃园县| 华阴市| 曲水县| 南宁市| 沾益县| 柳江县| 资源县| 长海县| 尖扎县| 胶南市| 华安县| 天峻县| 衡南县| 沙湾县| 周宁县| 东乡族自治县| 炉霍县| 石台县| 崇礼县| 厦门市| 邵阳县| 海丰县| 观塘区| 恭城| 城市|