MDA/MDD/TDD/DDD/DDDDDDD
          posts - 536, comments - 111, trackbacks - 0, articles - 0
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          python中文處理辦法

          Posted on 2008-10-09 21:46 leekiang 閱讀(1213) 評論(0)  編輯  收藏 所屬分類: python
          python處理字符串很容易,但是在處理中文時候需要注意一些問題。
          比如:

          a = "我們是python愛好者"
          print a[0]

          只能輸出“我”字的前半部分,要想輸出整個的我字還需要

          b = a[0:2]
          print b

          才行,很不方便,并且當一段文本中同時有中英文?氖焙蠔苣汛懟?
          最好的辦法就是轉換為unicode。

          像這樣:

          c = unicode(a, "gb2312")
          print c[0]

          這個時候c的下標對應的就是每一字,不再是字節,并且通過 len(c) 就可以獲得字數!
          還可以很方便的轉換為其他編碼,比如轉換為 utf-8

          d = c.encode("utf-8")

          轉自 http://www.okpython.com/bbs/viewthread.php?tid=311
          主站蜘蛛池模板: 周宁县| 岑巩县| 丁青县| 滨海县| 五河县| 南投县| 沅陵县| 宝山区| 玛沁县| 隆尧县| 上饶县| 叙永县| 思茅市| 刚察县| 海晏县| 岫岩| 兰州市| 兴业县| 新蔡县| 海阳市| 深泽县| 镇原县| 贵阳市| 常熟市| 玛多县| 开封县| 都兰县| 东丰县| 永登县| 青浦区| 那坡县| 北辰区| 长乐市| 万宁市| 铜山县| 上虞市| 临海市| 珠海市| 平江县| 民勤县| 台中市|