1.計算機信息的存儲與處理
計算機信息(包括字母、各種符號、圖形符號)分為:
|--數據信息
|--數值
|--非數值
|--控制信息
計算機信息以二進制編碼方式存入計算機并得以處理。
這種二進制代碼就叫字符編碼。
2.西文字符集
使用最廣泛的西文字符集及編碼是:ASCII字符集 和 ASCII碼
(American Standard Code for Information Interchange)美國標準信息交換碼
使用7個或8個二進制進行編碼的方案,最多可以給256個字符編碼。
基本的ASCII字符集共有128個字符,其中96個是可打印字符。
A為65,0為48
大小寫之間差32
3.MBCS
為擴充ASCII編碼,不同國家地區制定了不同的標準。它些使用2個字節代表一個字符的各種漢字延伸編碼方式,稱為ANSI編碼 (American Nation Standards Institute-美國國家標準學會)又稱為:Muilti-Bytes Charecter Set 多字節字符集
簡體中文下,ANSI表示GB2312編碼
由于不同ANSI編碼互不兼容,因此將屬于兩種語言的文字存儲在同一段ANSI編碼的文本中。另外同一個編碼值在不同的編碼體系代表不同的字,這樣容易造成混亂。這就導致了UNICODE碼的誕生。
所有的編碼都有一個轉換器可以轉到unicode,而unicode也可以轉換到其它所有的編碼
3.GB2312
中國國家標準總局發布了一系列漢字字符集國家標準編碼,其中最有影響的是 1980年發布的GB 2312-1980,因其使用非常普遍,也被稱為國標碼。
GB2312由6763個常用漢字和682個全角的非漢字字符組成。漢字根據使用頻率分兩級,一級3755個,二級3008個。采用二維矩陣編碼法對所有字條進行編碼。94行94列的方陣,每一行稱為一個區,每一列稱為一個位。
4.UNICODE編碼
它是一個大而全的編碼,包含了世界上所有的符號,無論是英文,日文,還是中文。現在的規模可以容納100多萬個符號,每個符號的編碼都不一樣。
雖然統一了編碼方式,但它的效率不高。對存儲和傳輸來說都很耗資源
5.UTF-8
為提高 unicode的編碼效率,出現了UTF-8編碼。
它可根據不同的符號自動選擇編碼的長短。