用JavaScript計算字符串占用字節數
原帖地址
最近和JavaScript糾纏上了。
遇到這么一個問題,數據庫的字符集為UTF-8的,要在頁面上使用JavaScript驗證輸入的文本用UTF-8存儲時占用字節長度。JavaScript的String對象有length屬性,但是這個計算的是字符數,不是字節數(問題總是翻來覆去的,記得當年玩Delphi的時候,還得寫程序計算字符串的字符數,因為Delphi中String的length是字節數...)。偷懶一點的辦法是將驗證代碼中最大長度設置為數據庫中對應字段的長度的1/3,但是這樣準確來說有點不合適。
所以想辦法在JavaScript中判斷在UTF-8下存儲的String的字節數,在網上找到很多關于Unicode介紹的文檔,最重要的是字符編碼數值對應的存儲長度:
UCS-2編碼(16進制) UTF-8 字節流(二進制)
0000 - 007F 0xxxxxxx (1字節)
0080 - 07FF 110xxxxx 10xxxxxx (2字節)
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (3字節)
于是代碼如下:




















實際上,0x0080到0x07ff之間的字符很少會在實際用戶輸入中用到。
參考文檔:
程序員趣味讀物:談談Unicode編碼 http://www.lihuasoft.net/article/show.php?id=2778
posted on 2008-05-30 10:09 々上善若水々 閱讀(2952) 評論(1) 編輯 收藏 所屬分類: JavaScript