posts - 198, comments - 37, trackbacks - 0

經常看到一些朋友問ORACLE字符集方面的問題，我想以迭代的方式來介紹一下。

第一次迭代：掌握字符集方面的基本概念。
有些朋友可能會認為這是多此一舉，但實際上正是由于對相關基本概念把握不清，才導致了諸多問題和疑問。
首先是字符集的概念。
我們知道，電子計算機最初是用來進行科學計算的（所以叫做“計算機”），但隨著技術的發展，還需要計算機進行其它方面的應用處理。這就要求計算機不僅能處理數值，還能處理諸如文字、特殊符號等其它信息，而計算機本身能直接處理的只有數值信息，所以就要求對這些文字、符號信息進行數值編碼，最初的字符集是我們都非常熟悉的ASCII，它是用7個二進制位來表示128個字符，而后來隨著不同國家、組織的需要，出現了許許多多的字符集，如表示西歐字符的ISO8859系列的字符集，表示漢字的GB2312-80、GBK等字符集。
字符集的實質就是對一組特定的符號，分別賦予不同的數值編碼，以便于計算機的處理。
字符集之間的轉換。字符集多了，就會帶來一個問題，比如一個字符，在某一字符集中被編碼為一個數值，而在另一個字符集中被編碼為另一個數值，比如我來創造兩個字符集demo_charset1與demo_charset2，在demo_charset1中，我規定了三個符號的編碼為：A（0001），B（0010），？（1111）；而在demo_charset2中，我也規定了三個符號的編碼為：A（1001），C（1011），？（1111），這時我接到一個任務，要編寫一個程序，負責在demo_charset1與demo_charset2之間進行轉換。由于知道兩個字符集的編碼規則，對于demo_charset1中的0001，在轉換為demo_charset2時，要將其編碼改為1001；對于demo_charset1中的1111，轉換為demo_charset2時，其數值不變；而對于demo_charset1中的0010，其對應的字符為B，但在demo_charset2沒有對應的字符，所以從理論上無法轉換，對于所有這類無法轉換的情況，我們可以將它們統一轉換為目標字符集中的一個特殊字符（稱為“替換字符”），比如在這里我們可以將？作為替換字符，所以B就轉換為了？，出現了信息的丟失；同樣道理，將demo_charset2的C字符轉換到demo_charset1時，也會出現信息丟失。
所以說，在字符集轉換過程中，如果源字符集中的某個字符在目標字符集中沒有定義，將會出現信息丟失。
數據庫字符集的選擇。
我們在創建數據庫時，需要考慮的一個問題就是選擇什么字符集與國家字符集（通過create database中的CHARACTER SET與NATIONAL CHARACTER SET子句指定）。考慮這個問題，我們必須要清楚數據庫中都需要存儲什么數據，如果只需要存儲英文信息，那么選擇US7ASCII作為字符集就可以；但是如果要存儲中文，那么我們就需要選擇能夠支持中文的字符集（如ZHS16GBK）；如果需要存儲多國語言文字，那就要選擇UTF8了。
數據庫字符集的確定，實際上說明這個數據庫所能處理的字符的集合及其編碼方式，由于字符集選定后再進行更改會有諸多的限制，所以在數據庫創建時一定要考慮清楚后再選擇。
而我們許多朋友在創建數據庫時，不考慮清楚，往往選擇一個默認的字符集，如WE8ISO8859P1或US7ASCII，而這兩個字符集都沒有漢字編碼，所以用這種字符集存儲漢字信息從原則上說就是錯誤的。雖然在有些時候選用這種字符集好象也能正常使用，但它會給數據庫的使用與維護帶來一系列的麻煩，在后面的迭代過程中我們將深入分析。
客戶端的字符集。
有過一些Oracle使用經驗的朋友，大多會知道通過NLS_LANG來設置客戶端的情況，NLS_LANG由以下部分組成：NLS_LANG=<Language>_<Territory>.<Clients Characterset>，其中第三部分<Clients Characterset>的本意就是用來指明客戶端操作系統缺省使用的字符集。所以按正規的用法，NLS_LANG應該按照客戶端機器的實際情況進行配置，尤其對于字符集一項更是如此，這樣Oracle就能夠在最大程度上實現數據庫字符集與客戶端字符集的自動轉換（當然是如果需要轉換的話）。
總結一下第一次迭代的重點：
字符集：將特定的符號集編碼為計算機能夠處理的數值；
字符集間的轉換：對于在源字符集與目標字符集都存在的符號，理論上轉換將不會產生信息丟失；而對于在源字符集中存在而在目標字符集中不存在的符號，理論上轉換將會產生信息丟失；
數據庫字符集：選擇能夠包含所有將要存儲的信息符號的字符集；
客戶端字符集設置：指明客戶端操作系統缺省使用的字符集。

第二次迭代：通過實例加深對基本概念的理解

下面我將引用網友tellin在ITPUB上發表的“CHARACTER SET研究及疑問”帖子，該朋友在帖子中列舉了他做的相關實驗，并對實驗結果提出了一些疑問，我將對他的實驗結果進行分析，并回答他的疑問。
實驗結果分析一

quote:
最初由 tellin 發布
設置客戶端字符集為US7ASCII
D:\>SET NLS_LANG=AMERICAN_AMERICA.US7ASCII
查看服務器字符集為US7ASCII
SQL> SELECT * FROM NLS_DATABASE_PARAMETERS;
PARAMETER VALUE
------------------------------ ----------------------------------------
NLS_CHARACTERSET US7ASCII

建立測試表
SQL> CREATE TABLE TEST (R1 VARCHAR2(10));

Table created.

插入數據
SQL> INSERT INTO TEST VALUES('東北');

1 row created.

SQL> SELECT * FROM TEST;

R1
----------
東北

SQL> EXIT

這一部分的實驗數據的存取與顯示都正確，好象沒什么問題，但實際上卻隱藏著很大的隱患。
首先，要將漢字存入數據庫，而將數據庫字符集設置為US7ASCII是不合適的。US7ASCII字符集只定義了128個符號，并不支持漢字。另外，由于在SQL*PLUS中能夠輸入中文，操作系統缺省應該是支持中文的，但在NLS_LANG中的字符集設置為US7ASCII，顯然也是不正確的，它沒有反映客戶端的實際情況。
但實際顯示卻是正確的，這主要是因為Oracle檢查數據庫與客戶端的字符集設置是同樣的，那么數據在客戶與數據庫之間的存取過程中將不發生任何轉換。具體地說，在客戶端輸入“東北”，“東”的漢字的編碼為182（10110110）、171（10101011），“北”漢字的編碼為177（10110001）、177（10110001），它們將不做任何變化的存入數據庫中，但是這實際上導致了數據庫標識的字符集與實際存入的內容是不相符的，從某種意義上講，這也是一種不一致性，也是一種錯誤。而在SELECT的過程中，Oracle同樣檢查發現數據庫與客戶端的字符集設置是相同的，所以它也將存入的內容原封不動地傳送到客戶端，而客戶端操作系統識別出這是漢字編碼所以能夠正確顯示。
在這個例子中，數據庫與客戶端的設置都有問題，但卻好象起到了“負負得正”的效果，從應用的角度看倒好象沒問題。但這里面卻存在著極大的隱患，比如在應用length或substr等字符串函數時，就可能得到意外的結果。另外，如果遇到導入/導出（import /export）將會遇到更大的麻煩。有些朋友在這方面做了大量的測試，如eygle研究了“源數據庫字符集為US7ASCII，導出文件字符集為US7ASCII或ZHS16GBK，目標數據庫字符集為ZHS16GBK”的情況，他得出的結論是 “如果的是在Oracle92中，我們發現對于這種情況，不論怎樣處理，這個導出文件都無法正確導入到Oracle9i數據庫中”、“對于這種情況，我們可以通過使用Oracle8i的導出工具，設置導出字符集為US7ASCII，導出后修改第二、三字符，修改 0001 為0354,這樣就可以將US7ASCII字符集的數據正確導入到ZHS16GBK的數據庫中”。我想對于這些結論，這樣理解可能更合適一些：由于ZHS16GBK字符集是US7ASCII的超級，所以如果按正常操作，這種轉換應該沒有問題；但出現問題的本質是我們讓本應只存儲英文字符的US7ASCII數據庫，非常規地存儲了中文信息，那么在轉化過程中出現錯誤或麻煩就沒什么奇怪的了，不出麻煩倒是有些奇怪了。
所以說要避免這種情況，就是要在建立數據庫時選擇合適的字符集，不讓標簽（數據庫的字符集設置）與實際（數據庫中實際存儲的信息）不符的情況發生。

實驗結果分析二

quote:
[ 更改客戶端字符集為ZHS16GBK
D:\>SET NLS_LANG=AMERICAN_AMERICA.ZHS16GBK

D:\>SQLPLUS "/ AS SYSDBA"

無法正常顯示數據

SQL> SELECT * FROM TEST;

R1
--------------------
6+11

疑問1：ZHS16GBK為US7ASCII的超集，為什么在ZHS16GBK環境下無法正常顯示

這主要是因為Oracle檢查發現數據庫設置的字符集與客戶端配置字符集不同，它將對數據進行字符集的轉換。數據庫中實際存放的數據為182（10110110）、171（10101011）、177（10110001）、177（10110001），由于數據庫字符集設置為US7ASCII，它是一個7bit的字符集，存儲在8bit的字節中，則Oracle忽略各字節的最高bit，則182（10110110）就變成了54（0110110），在ZHS16GBK中代表數字符號“6”（當然在其它字符集中也是“6”），同樣過程也發生在其它3個字節，這樣“東北”就變成了“6+11”。

實驗結果分析三

quote:
最初由 tellin 發布
用ZHS16GBK插入數據
SQL> INSERT INTO TEST VALUES('東北');

1 row created.

SQL> SELECT * FROM TEST;

R1
--------------------
6+11
??

SQL> EXIT

當客戶端字符集設置為ZHS16GBK后向數據庫插入“東北”，Oracle檢查發現數據庫設置的字符集為US7ASCII與客戶端不一致，需要進行轉換，但字符集ZHS16GBK中的“東北”兩字在US7ASCII中沒有對應的字符，所以Oracle用統一的“替換字符”插入數據庫，在這里為“？”，編碼為63（00111111），這時，輸入的信息實際上已經丟失，不管字符集設置如何改變（如下面引用的實驗結果），第二行SELECT出來的結果也都是兩個“？”號（注意是2個，而不是4個）。

quote:

更改客戶端字符集為US7ASCII
D:\>SET NLS_LANG=AMERICAN_AMERICA.US7ASCII

D:\>SQLPLUS "/ AS SYSDBA"

無法顯示用ZHS16GBK插入的字符集，但可以顯示用US7ASCII插入的字符集
SQL> SELECT * FROM TEST;

R1
----------
東北
??

更改服務器字符集為ZHS16GBK
SQL> update props$ set value$='ZHS16GBK' WHERE NAME='NLS_CHARACTERSET';

1 row updated.

SQL> COMMIT;

更改客戶端字符集為ZHS16GBK
D:\>SET NLS_LANG=AMERICAN_AMERICA.ZHS16GBK

D:\>SQLPLUS "/ AS SYSDBA"

可以顯示以前US7ASCII的字符集，但無法顯示用ZHS16GBK插入的數據，說明用ZHS16GBK插入的數據為亂碼。

SQL> SELECT * FROM TEST;

R1
--------------------
東北
??

需要指出的是，通過“update props$ set value$='ZHS16GBK' WHERE NAME='NLS_CHARACTERSET';”來修改數據庫字符集是非常規作法，很可能引起問題，在這里只是原文引用網友的實驗結果。

?

實驗結果分析四

quote:

SQL> INSERT INTO TEST VALUES('東北');

1 row created.

SQL> SELECT * FROM TEST;

R1
--------------------
東北
??
東北

SQL> EXIT

由于此時數據庫與客戶端的字符集設置均為ZHS16GBK，所以不會發生字符集的轉換，第一行與第三行數據顯示正確，而第二行由于存儲的數據就是63（00111111），所以顯示的是“？”號。

quote:

更改客戶端字符集為US7ASCII

D:\>SET NLS_LANG=AMERICAN_AMERICA.US7ASCII

D:\>SQLPLUS "/ AS SYSDBA"

無法顯示數據

SQL> SELECT * FROM TEST;

R1
----------
??
??
??

疑問2：第一行數據是用US7ASCII環境插入的，為何無法正常顯示？

將客戶端字符集設置改為US7ASCII后進行SELECT，Oracle檢查發現數據庫設置的字符集為ZHS16GBK，數據需要進行字符集轉換，而第一行與第三行的漢字“東”與“北”在客戶端字符集US7ASCII中沒有對應字符，所以轉換為“替換字符”（“？”），而第二行數據在數據庫中存的本來就是兩個“？”號，所以雖然在客戶端顯示的三行都是兩個“？”號，但在數據庫中存儲的內容卻是不同的。

實驗結果分析五

quote:

SQL> INSERT INTO TEST VALUES('東北');

1 row created.

SQL> EXIT
更改客戶端字符集為ZHS16GBK
D:\>SET NLS_LANG=AMERICAN_AMERICA.ZHS16GBK

D:\>SQLPLUS "/ AS SYSDBA"

無法顯示用US7ASCII插入的字符集，但可以顯示用ZHS16GBK插入的字符集
SQL> SELECT * FROM TEST;

R1
--------------------
東北
??
東北
6+11

SQL>
疑問3：US7ASCII為ZHS16GBK的子集，為何在US7ASCII環境下插入的數據無法顯示？ [/B]

在客戶端字符集設置為US7ASCII時，向字符集為ZHS16GBK的數據庫中插入“東北”，需要進行字符轉換，“東北”的ZHS16GBK編碼為182（10110110）、171（10101011）與177（10110001）、177（10110001），由于US7ASCII為7bit編碼，Oracle將這兩個漢字當作四個字符，并忽略各字節的最高位，從而存入數據庫的編碼就變成了54（00110110）、43（00101011）與49（00110001）、49（00110001），也就是“6+11”，原始信息被改變了。這時，將客戶端字符集設置為ZHS16GBK再進行SELECT，數據庫中的信息不需要改變傳到客戶端，第一、三行由于存入的信息沒有改變能顯示“東北”，而第二、四行由于插入數據時信息改變，所以不能顯示原有信息了。

分析了這么多的內容，但實際上總結起來也很簡單

分析了這么多的內容，但實際上總結起來也很簡單，要想在字符集方面少些錯誤與麻煩，需要堅持兩條基本原則：
在數據庫端：選擇需要的字符集（通過create database中的CHARACTER SET與NATIONAL CHARACTER SET子句指定）；
在客戶端：設置操作系統實際使用的字符集（通過環境變量NLS_LANG設置）。

posted on 2006-06-17 16:26 OMG 閱讀(402) 評論(0) 編輯收藏所屬分類: <項目>數據庫設計

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: oracle的一些基本操作如何解決表被鎖定的問題創建索引（數據庫引擎） mySql服務無法啟動問題解決方案 mysql數據庫的基本安裝使用分布式事務 ORACLE常用命令 Oracle數據庫字符集問題解析 HIBERNATE為什么不提倡用聯合主鍵