MySQL 4.1的字符集支持(Character Set Support)有兩個(gè)方面:字符集(Character set)和排序方式(Collation)。對(duì)于字符集的支持細(xì)化到四個(gè)層次: 服務(wù)器(server),數(shù)據(jù)庫(kù)(database),數(shù)據(jù)表(table)和連接(connection)。

查看系統(tǒng)的字符集和排序方式的設(shè)定可以通過(guò)下面的兩條命令:

mysql> SHOW VARIABLES LIKE 'character_set_%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
7 rows in set (0.00 sec)

mysql> SHOW VARIABLES LIKE 'collation_%';
+----------------------+-------------------+
| Variable_name | Value |
+----------------------+-------------------+
| collation_connection | latin1_swedish_ci |
| collation_database | latin1_swedish_ci |
| collation_server | latin1_swedish_ci |
+----------------------+-------------------+
3 rows in set (0.00 sec)

上面列出的值就是系統(tǒng)的默認(rèn)值。

一般就算設(shè)置了表的默認(rèn)字符集為utf8并且通過(guò)UTF-8編碼發(fā)送查詢,你會(huì)發(fā)現(xiàn)存入數(shù)據(jù)庫(kù)的仍然是亂碼。問(wèn)題就出在這個(gè)connection連接層上。解決方法是在發(fā)送查詢前執(zhí)行一下下面這句:

SET NAMES 'utf8';

它相當(dāng)于下面的三句指令:
SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = utf8;

而MySQL數(shù)據(jù)庫(kù)的4.1是一個(gè)分水嶺,4.1直接支持Unicode,它以下版本支持的不好;

MySQL JDBC Driver的3.0.16也是一個(gè)分水嶺,3.0.16版本會(huì)取數(shù)據(jù)庫(kù)本身的編碼,然后按照該編碼轉(zhuǎn)換,這種方式和Oracle的JDBC Driver是一樣的。例如你的數(shù)據(jù)庫(kù)是GBK編碼的話,JDBC Driver就會(huì)把數(shù)據(jù)庫(kù)里面的取出來(lái)的字符串按照GBK往unicode轉(zhuǎn)換,送給JVM。因此正確的設(shè)置數(shù)據(jù)庫(kù)本身的編碼就尤為重要。

MySQL JDBC Driver3.0.16以下的版本則不然,它不會(huì)那么智能的根據(jù)數(shù)據(jù)庫(kù)編碼來(lái)確定如何轉(zhuǎn)換,它總是默認(rèn)使用ISO8859-1,因此你必須使用 characterEncoding=GBK來(lái)強(qiáng)制他把數(shù)據(jù)庫(kù)中取出來(lái)的字符串按照GBK來(lái)往unicode轉(zhuǎn)換。

因此,使用什么數(shù)據(jù)庫(kù)版本,不管是3.x,還是4.0.x還是4.1.x,其實(shí)對(duì)我們來(lái)說(shuō)不重要,重要的有二:

1) 正確的設(shè)定數(shù)據(jù)庫(kù)編碼,MySQL4.0以下版本的字符集總是默認(rèn)ISO8859-1,MySQL4.1在安裝的時(shí)候會(huì)讓你選擇。如果你準(zhǔn)備使用UTF- 8,那么在創(chuàng)建數(shù)據(jù)庫(kù)的時(shí)候就要指定好UTF-8(創(chuàng)建好以后也可以改,4.1以上版本還可以單獨(dú)指定表的字符集)

2) 使用3.0.16以上版本的JDBC Driver,那么你就不需要再寫什么characterEncoding=UTF-8