Hello World
如切如磋,如琢如磨

隨筆 - 42 文章 - 71 trackbacks - 0

2008年5月

>

日

一

二

三

四

五

六

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

常用鏈接

留言簿

隨筆檔案

文章分類

想到就寫

文章檔案

2009年1月 (2)

搜索

閱讀排行榜

評論排行榜

用JavaScript計算字符串占用字節(jié)數(shù)

Technorati 標(biāo)簽: javascript,multibyte,string,length,utf-8

最近和JavaScript糾纏上了。

遇到這么一個問題，數(shù)據(jù)庫的字符集為UTF-8的，要在頁面上使用JavaScript驗證輸入的文本用UTF-8存儲時占用字節(jié)長度。JavaScript的String對象有l(wèi)ength屬性，但是這個計算的是字符數(shù)，不是字節(jié)數(shù)（問題總是翻來覆去的，記得當(dāng)年玩Delphi的時候，還得寫程序計算字符串的字符數(shù)，因為Delphi中String的length是字節(jié)數(shù)...）。偷懶一點的辦法是將驗證代碼中最大長度設(shè)置為數(shù)據(jù)庫中對應(yīng)字段的長度的1/3，但是這樣準(zhǔn)確來說有點不合適。

所以想辦法在JavaScript中判斷在UTF-8下存儲的String的字節(jié)數(shù)，在網(wǎng)上找到很多關(guān)于Unicode介紹的文檔，最重要的是字符編碼數(shù)值對應(yīng)的存儲長度：

UCS-2編碼(16進制) UTF-8 字節(jié)流(二進制)
0000 - 007F 0xxxxxxx （1字節(jié)）
0080 - 07FF 110xxxxx 10xxxxxx （2字節(jié)）
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx （3字節(jié)）

于是代碼如下：

實際上,0x0080到0x07ff之間的字符很少會在實際用戶輸入中用到。

參考文檔：

程序員趣味讀物：談?wù)刄nicode編碼 http://www.lihuasoft.net/article/show.php?id=2778

posted on 2008-05-29 17:39 YODA 閱讀(5795) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理