MDA/MDD/TDD/DDD/DDDDDDD
          posts - 536, comments - 111, trackbacks - 0, articles - 0
            BlogJava :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

          python中文處理辦法

          Posted on 2008-10-09 21:46 leekiang 閱讀(1213) 評(píng)論(0)  編輯  收藏 所屬分類(lèi): python
          python處理字符串很容易,但是在處理中文時(shí)候需要注意一些問(wèn)題。
          比如:

          a = "我們是python愛(ài)好者"
          print a[0]

          只能輸出“我”字的前半部分,要想輸出整個(gè)的我字還需要

          b = a[0:2]
          print b

          才行,很不方便,并且當(dāng)一段文本中同時(shí)有中英文?氖焙蠔苣汛懟?
          最好的辦法就是轉(zhuǎn)換為unicode。

          像這樣:

          c = unicode(a, "gb2312")
          print c[0]

          這個(gè)時(shí)候c的下標(biāo)對(duì)應(yīng)的就是每一字,不再是字節(jié),并且通過(guò) len(c) 就可以獲得字?jǐn)?shù)!
          還可以很方便的轉(zhuǎn)換為其他編碼,比如轉(zhuǎn)換為 utf-8

          d = c.encode("utf-8")

          轉(zhuǎn)自 http://www.okpython.com/bbs/viewthread.php?tid=311
          主站蜘蛛池模板: 龙泉市| 永和县| 客服| 长顺县| 扎鲁特旗| 松原市| 阳信县| 清远市| 黔南| 阿图什市| 民和| 塘沽区| 玉田县| 博爱县| 措美县| 乃东县| 天峻县| 铜川市| 冷水江市| 湖口县| 霍林郭勒市| 法库县| 黄骅市| 凤冈县| 合肥市| 枞阳县| 阳城县| 岑巩县| 金湖县| 紫金县| 巴林左旗| 普安县| SHOW| 驻马店市| 祁连县| 任丘市| 女性| 南涧| 澳门| 阿巴嘎旗| 镇原县|