mysql字符集和校對(duì)規(guī)則
簡(jiǎn)要說(shuō)明
字符集和校對(duì)規(guī)則
詳細(xì)說(shuō)明
字符集(charset):是一套符號(hào)和編碼。
校對(duì)規(guī)則(collation):是在字符集內(nèi)用于比較字符的一套規(guī)則,比如定義'A'<'B'這樣的關(guān)系的規(guī)則。不同collation可以實(shí)現(xiàn)不同的比較規(guī)則,如'A'='a'在有的規(guī)則中成立,而有的不成立;進(jìn)而說(shuō),就是有的規(guī)則區(qū)分大小寫(xiě),而有的無(wú)視。
每個(gè)字符集有一個(gè)或多個(gè)校對(duì)規(guī)則,并且每個(gè)校對(duì)規(guī)則只能屬于一個(gè)字符集。
binary collation,二元法,直接比較字符的編碼,可以認(rèn)為是區(qū)分大小寫(xiě)的,因?yàn)樽址?A'和'a'的編碼顯然不同。除此以外,還有更加復(fù)雜的比較規(guī)則,這些規(guī)則在簡(jiǎn)單的二元法之上增加一些額外的規(guī)定,比較就更加復(fù)雜了。
mysql5.1在字符集和校對(duì)規(guī)則的使用比其它大多數(shù)數(shù)據(jù)庫(kù)管理系統(tǒng)超前許多,可以在任何級(jí)別進(jìn)行使用和設(shè)置,為了有效地使用這些功能,你需要了解哪些字符集和 校對(duì)規(guī)則是可用的,怎樣改變默認(rèn)值,以及它們?cè)鯓佑绊懽址僮鞣妥址瘮?shù)的行為。
校對(duì)規(guī)則一般有這些特征:
兩個(gè)不同的字符集不能有相同的校對(duì)規(guī)則。
每個(gè)字符集有一個(gè)默認(rèn)校對(duì)規(guī)則。例如,utf8默認(rèn)校對(duì)規(guī)則是utf8_general_ci。
存在校對(duì)規(guī)則命名約定:它們以其相關(guān)的字符集名開(kāi)始,通常包括一個(gè)語(yǔ)言名,并且以_ci(大小寫(xiě)不敏感)、_cs(大小寫(xiě)敏感)或_bin(二元)結(jié)束
確定默認(rèn)字符集和校對(duì)
字符集和校對(duì)規(guī)則有4個(gè)級(jí)別的默認(rèn)設(shè)置:服務(wù)器級(jí)、數(shù)據(jù)庫(kù)級(jí)、表級(jí)和連接級(jí)。
數(shù)據(jù)庫(kù)字符集和校對(duì)
每一個(gè)數(shù)據(jù)庫(kù)有一個(gè)數(shù)據(jù)庫(kù)字符集和一個(gè)數(shù)據(jù)庫(kù)校對(duì)規(guī)則,它不能夠?yàn)榭?。CREATE DATABASE和ALTER DATABASE語(yǔ)句有一個(gè)可選的子句來(lái)指定數(shù)據(jù)庫(kù)字符集和校對(duì)規(guī)則:
例如:
CREATE DATABASE db_name DEFAULT CHARACTER SET latin1 COLLATE latin1_swedish_ci;
MySQL這樣選擇數(shù)據(jù)庫(kù)字符集和數(shù)據(jù)庫(kù)校對(duì)規(guī)則:
· 如果指定了CHARACTER SET X和COLLATE Y,那么采用字符集X和校對(duì)規(guī)則Y。
· 如果指定了CHARACTER SET X而沒(méi)有指定COLLATE Y,那么采用CHARACTER SET X和CHARACTER SET X的默認(rèn)校對(duì)規(guī)則。
· 否則,采用服務(wù)器字符集和服務(wù)器校對(duì)規(guī)則。
在SQL語(yǔ)句中使用COLLATE
•使用COLLATE子句,能夠?yàn)橐粋€(gè)比較覆蓋任何默認(rèn)校對(duì)規(guī)則。COLLATE可以用于多種SQL語(yǔ)句中。
使用WHERE:
select * from pro_product where product_code='ABcdefg' collate utf8_general_ci
Unicode與UTF8
Unicode只是一個(gè)符號(hào)集,它只規(guī)定了符號(hào)的二進(jìn)制代碼,卻沒(méi)有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲(chǔ).Unicode碼可以采用UCS-2格式直接存儲(chǔ).mysql支持ucs2字符集。
UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實(shí)現(xiàn)方式。其他實(shí)現(xiàn)方式還包括UTF-16和UTF-32,不過(guò)在互聯(lián)網(wǎng)上基本不用。
UTF8字符集(轉(zhuǎn)換Unicode表示)是存儲(chǔ)Unicode數(shù)據(jù)的一種可選方法。它根據(jù) RFC 3629執(zhí)行。UTF8字符集的思想是不同Unicode字符采用變長(zhǎng)字節(jié)序列編碼:
· 基本拉丁字母、數(shù)字和標(biāo)點(diǎn)符號(hào)使用一個(gè)字節(jié)。
· 大多數(shù)的歐洲和中東手寫(xiě)字母適合兩個(gè)字節(jié)序列:擴(kuò)展的拉丁字母(包括發(fā)音符號(hào)、長(zhǎng)音符號(hào)、重音符號(hào)、低音符號(hào)和其它音符)、西里爾字母、希臘語(yǔ)、亞美尼亞語(yǔ)、希伯來(lái)語(yǔ)、阿拉伯語(yǔ)、敘利亞語(yǔ)和其它語(yǔ)言。
· 韓語(yǔ)、中文和日本象形文字使用三個(gè)字節(jié)序列。
posted on 2011-10-24 14:59 zyskm 閱讀(1817) 評(píng)論(3) 編輯 收藏