用python處理字符串很容易,但是在處理中文的時(shí)候需要注意一些問(wèn)題。
比如:
a = "我們是python愛(ài)好者"
print a[0]
只能輸出“我”字的前半部分,要想輸出整個(gè)的我字還需要
b = a[0:2]
print b
才行,很不方便,并且當(dāng)一段文本中同時(shí)有中英文?氖焙蠔苣汛懟?
最好的辦法就是轉(zhuǎn)換為unicode。
像這樣:
c = unicode(a, "gb2312")
print c[0]
這個(gè)時(shí)候c的下標(biāo)對(duì)應(yīng)的就是每一字,不再是字節(jié),并且通過(guò) len(c) 就可以獲得字?jǐn)?shù)!
還可以很方便的轉(zhuǎn)換為其他編碼,比如轉(zhuǎn)換為 utf-8
d = c.encode("utf-8")
轉(zhuǎn)自 http://www.okpython.com/bbs/viewthread.php?tid=311
比如:
a = "我們是python愛(ài)好者"
print a[0]
只能輸出“我”字的前半部分,要想輸出整個(gè)的我字還需要
b = a[0:2]
print b
才行,很不方便,并且當(dāng)一段文本中同時(shí)有中英文?氖焙蠔苣汛懟?
最好的辦法就是轉(zhuǎn)換為unicode。
像這樣:
c = unicode(a, "gb2312")
print c[0]
這個(gè)時(shí)候c的下標(biāo)對(duì)應(yīng)的就是每一字,不再是字節(jié),并且通過(guò) len(c) 就可以獲得字?jǐn)?shù)!
還可以很方便的轉(zhuǎn)換為其他編碼,比如轉(zhuǎn)換為 utf-8
d = c.encode("utf-8")
轉(zhuǎn)自 http://www.okpython.com/bbs/viewthread.php?tid=311