隨筆-314 評論-209 文章-0 trackbacks-0

Python 里面的編碼和解碼也就是 unicode 和 str 這兩種形式的相互轉化。編碼是 unicode -> str，相反的，解碼就是 str -> unicode。剩下的問題就是確定何時需要進行編碼或者解碼了.關于文件開頭的"編碼指示"，也就是 # -*- coding: -*- 這個語句。Python 默認腳本文件都是 UTF-8 編碼的，當文件中有非 UTF-8 編碼范圍內的字符的時候就要使用"編碼指示"來修正. 關于 sys.defaultencoding，這個在解碼沒有明確指明解碼方式的時候使用。比如我有如下代碼：

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中文'  # 注意這里的 str 是 str 類型的，而不是 unicode

s.encode('gb18030')

這句代碼將 s 重新編碼為 gb18030 的格式，即進行 unicode -> str 的轉換。因為 s 本身就是 str 類型的，因此 Python 會自動的先將 s 解碼為 unicode ，然后再編碼成 gb18030。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position

0: ordinal not in range(128)

對于這種情況，我們有兩種方法來改正錯誤：

一是明確的指示出 s 的編碼方式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中文'

s.decode('utf-8').encode('gb18030')

二是更改 sys.defaultencoding 為文件的編碼方式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

import sys

reload(sys) # Python2.5 初始化后會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入

sys.setdefaultencoding('utf-8')

str = '中文'

str.encode('gb18030')

看完之后,改成這樣

print "<p>addr:", form["addr"].value.decode('gb2312').encode('utf-8')

成功通過.

posted on 2018-05-18 09:52 xzc 閱讀(422) 評論(0) 編輯收藏所屬分類: python

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Python讀寫、創建文件當同時安裝Python2和Python3后，如何兼容并切換使用詳解（比如pip使用） Python編碼和解碼

<

2018年5月

>

日

一

二

三

四

五

六

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

常用鏈接

留言簿(12)

隨筆分類

隨筆檔案

收藏夾

xzc(12)

常用鏈接

留言簿(12)

隨筆分類

隨筆檔案

收藏夾

搜索

最新評論

閱讀排行榜

評論排行榜