thinking

one platform thousands thinking

JDK自帶的native2ascii工具完全揭密

背景：
在做Java開發的時候，常常會出現一些亂碼，或者無法正確識別或讀取的文件，比如常見的validator驗證用的消息資源（properties）文件就需要進行Unicode重新編碼。原因是java默認的編碼方式為Unicode，而我們的計算機系統編碼常常是GBK等編碼。需要將系統的編碼轉換為java正確識別的編碼問題就解決了。

1、native2ascii簡介：
native2ascii是sun java sdk提供的一個工具。用來將別的文本類文件（比如*.txt,*.ini,*.properties,*.java等等）編碼轉為Unicode編碼。為什么要進行轉碼，原因在于程序的國際化。Unicode編碼的定義：Unicode（統一碼、萬國碼、單一碼）是一種在計算機上使用的字符編碼。它為每種語言中的每個字符設定了統一并且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。1990年開始研發，1994年正式公布。隨著計算機工作能力的增強，Unicode也在面世以來的十多年里得到普及。

2、獲取native2ascii：
安裝了jdk后，假如你是在windows上安裝，那么在jdk的安裝目錄下，會有一個bin目錄，其中native2ascii.exe正是。

3、native2ascii的命令行的命名格式：
native2ascii -[options] [inputfile [outputfile]]

說明：

-[options]：表示命令開關，有兩個選項可供選擇
-reverse：將Unicode編碼轉為本地或者指定編碼，不指定編碼情況下，將轉為本地編碼。
-encoding encoding_name：轉換為指定編碼，encoding_name為編碼名稱。

[inputfile [outputfile]]
inputfile：表示輸入文件全名。
outputfile：輸出文件名。如果缺少此參數，將輸出到控制臺。

4、最佳實踐：
首先將JDK的bin目錄加入系統變量path。在盤下建立一個test目錄，在test目錄里建立一個zh.txt文件，文件內容為：“熔巖”，打開“ 命令行提示符”，并進入C:"test目錄下。下面就可以按照說明一步一步來操作，注意觀察其中編碼的變化。

A：將zh.txt轉換為Unicode編碼，輸出文件到u.txt
native2ascii zh.txt u.txt
打開u.txt，內容為“"u7194"u5ca9”。

B：將zh.txt轉換為Unicode編碼，輸出到控制臺

C:"test>native2ascii zh.txt
"u7194"u5ca9
可以看到，控制臺輸出了“"u7194"u5ca9”。

C：將zh.txt轉換為ISO8859-1編碼，輸出文件到i.txt
native2ascii -encoding ISO8859-1 zh.txt i.txt
打開i.txt文件，內容為“"u00c8"u00db"u00d1"u00d2”。

D：將u.txt轉換為本地編碼，輸出到文件u_nv.txt
native2ascii -reverse u.txt u_nv.txt
打開u_nv.txt文件，內容為“熔巖”。

E：將u.txt轉換為本地編碼，輸出到控制臺
C:"test>native2ascii -reverse u.txt
熔巖
可以看到，控制臺輸出了“熔巖”。

F：將i.txt轉換為本地編碼，輸出到i_nv.txt
native2ascii -reverse i.txt i_nv.txt
打開i_nv.txt文件，內容為“"u00c8"u00db"u00d1"u00d2”。發現轉碼前后完全一樣的。也就是說，等于沒有轉，或者說思想糊涂，對命名沒有理解。

G：將i.txt轉換為GBK編碼，輸出到i_gbk.txt
native2ascii -reverse -encoding GBK i.txt i_gbk.txt
打開i_gbk.txt文件，內容為“"u00c8"u00db"u00d1"u00d2”。發現轉碼前后完全一樣的。也就是說，等于沒有轉，或者說思想糊涂，對命名沒有理解。

H：將u_nv.txt轉碼到本地編碼GBK，輸出到控制臺
C:"test>native2ascii -reverse -encoding ISO8859-1 i.txt
熔巖
從這個結果看，目標達到到了，編碼i.txt為ISO8859-1，轉為本地編碼后內容為“熔巖”。從這里應該意識到，native2ascii -reverse命令中-encoding指定的編碼為源文件的編碼格式。而在native2ascii 命令中-encoding指定的編碼為（生成的）目標文件的編碼格式。這一點非常的重要！切記！！

繼續探索，新建文件12a.txt，內容“12axyz”。看看純字母數字的編碼又如何。

I：將純字母數字的文本文件12a.txt轉換為Unicode編碼
native2ascii 12a.txt 12a_nv.txt
打開12a_nv.txt文件，內容為“12axyz”。
繼續測試，轉為ISO8859-1編碼看看
C:"test>native2ascii -encoding ISO8859-1 12a.txt
12axyz
結果還是沒有轉碼。

從結果可以得出結論：對于純數字和字母的文本類型文件（只有ASCII碼），轉碼前后的內容是一樣的。

5、總結：
native2ascii是一個非常的好轉碼工具，并且轉碼是可逆的！而其真正的含義并非本地編碼——>轉碼為ASCII碼，而是一個通用的文本文件編碼轉換工具。在做編碼轉換的時候有兩類指定編碼的情形，分別指輸出文件編碼和輸入文件編碼，具體可以看看最佳實踐部分。

posted on 2009-06-04 13:52 lau 閱讀(232) 評論(0) 編輯收藏所屬分類: J2EE

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: http://java.dzone.com/articles/immutability-with-builder-design-pattern Hibernate中get和load方法的區別 JDK自帶的native2ascii工具完全揭密 The project cannot be built until build path errors are resolved ClassPathXmlApplicationContext 和FileSystemXmlApplicationContext的區別 Myeclipse中web.xml中找不到applicationContext.xml Cookie和Session專題（轉載） How to validate email, SSN, phone number in Java using Regular expressions. Spring 的MVC I18N－國際化相關配置 BeanFactory與Application的區別

thinking

JDK自帶的native2ascii工具完全揭密

My Links

Blog Stats

常用鏈接

留言簿(5)

隨筆分類

隨筆檔案

文章分類

java

Javascript

搜索

最新評論

閱讀排行榜

評論排行榜