jinfeng_wang

G-G-S,D-D-U!

BlogJava

管理

400 Posts :: 0 Stories :: 296 Comments :: 0 Trackbacks

公告

歡迎交流鏈接，給我留言

常用鏈接

留言簿(40)

隨筆分類(592)

隨筆檔案(400)

Domestic

Michael Chen’s Blog
臨海觀潮
兔八哥的狗窩

Foreign

搜索

積分與排名

積分 - 493551
排名 - 103

閱讀排行榜

評論排行榜

文字コードについて（シフトJISの問題） zz

http://park3.wakwak.com/~ozashin/sw_tips/webapp_tips/sjis_charset.html

文字コードについて（シフトJISの問題）

文字コードをシフトJISで開発し、Windowsのサーバで動かす場合の文字コード問題について示します。

厳密にいうとWindowsが扱う文字コードは、シフトＪＩＳでは、ありません。MS932です。または、コードページ CP932ともいいます。MS932は、マ社がシフトＪＩＳを拡張して定義したコード體系です。

で、ここで何が問題になるかというと、クライアントへの出力をcharset="Shift_JIS"とか定義して、アプリケーションサーバーなどが一生懸命シフトＪＩＳで出力しようとすると、ある文字列が文字化けするのです。ようは、MS932にある文字コードはシフトＪＩＳには、ないので、'? 'で出力されるということです。なお、OC4JやJBuilderで利用するtomcatは、MS932で出力しようとするので、あんまり文字化けしません。

Java內部で扱う文字コードは、Unicodeです。ここでシフトＪＩＳとUnicodeのマッピングとMS932とUnicodeのマッピングの違いによって、思わぬ、文字化けが発生するのです。ちなみに、JSPファイルにじか書きしてあるもじは、そのまま出力されるので問題はありません。
Javaプログラムを通して、Unicodeからcharsetで定義された文字が出力されるとき文字化けの対象となります。

具體的には、'～'、'∥'、'－'、'￠'、'￡'、'￢'などの一部の記號類です。
日本語のUnicodeベンダ依存文字表 http://www.ingrid.org/java/i18n/unicode.html を參照してください。

というわけで、Windowsで動かすのであれば、charsetを"Windows-31J"にしましょう！そうすれば、一部の文字コードを除いて解決です。
JSPの場合は、<%@ page contentType="text/html; charset=Windows-31J" %>と定義します。
Servletでは、

	private static final String CONTENT_TYPE = "text/html; charset=Windows-31J";
....
response.setContentType(CONTENT_TYPE);

のように実裝します。charset="MS932"でもＯＫですが、http://www.ingrid.org/java/i18n/encoding/shift_jis.htmlにあるとおり、これからは、Windows-31Jでいくようです。

WAVE DASH問題（TILDE問題）

シフトＪＩＳがらみでもうひとつWAVE DASH問題（TILDE問題）というのがあります。これは、JDBCがらみというか、データベースの文字セットの問題というか、誰が根本的な原因かわからないところがあります。Unicodeの実裝が厳密に定義されていないので、ベンダごとで実裝の仕方が違っているそうです。

Oracleを例にとって文字の流れを以下に示します。テスト環境は以下のとおり。

OS Windows2000

データベースサーバ Oracle8i R8.1.7

ＤＢ內部コード JA16SJIS

ある入力フィールドに '～' を含んだ文字列を設定し、それをデータベースへ格納し、參照する場合、文字変換の流れは以下のようになります。

ブラウザ上では、Windows-31J(MS932)なので、'～'=0x8160
Javaプログラム內部では、Unicodeなので、JisAutoDetectなどで変換して、'～'=0xFF5E (FULL WIDTH TILDE)
データベースに格納された結果は、JA16SJISなので、'～'=0x8160
Javaプログラムがデータベースから文字をGETしたとき、'～'=0x301C (WAVE DASH)
0x301Cを応答として出力すると、0x8160にマッピングできないので '?'となる。

この問題は、上記のようにcharsetをWindows31Jにしても回避できません。

ちなみに、Unicodeでいうところの '～' は、0x301C (WAVE DASH)になるのが、Unicodeコンソーシアムでは正しい実裝方法だそうです。

(4)で、0x301Cに変換されているんだからＯＫじゃん、と思いますが、0x8160を0xFF5Eに変換するんだから、0x8160にするには、0xFF5Eにしてあげなければならないのです。

この問題を回避するには、２通りあります。

(4)で0x301Cで変換された文字を0xFF5Eに再変換する。
Oracle9i R9.2以降でMS932がサポートされたデータベース內部コード "JA16SJISTILDE"を利用する。

しかし、(1)では、データベースをアクセスするたび、毎回再変換するので、パフォーマンスが落ちます。(2)では、いまさらOracle9に移行できる予算がないし、検証しているひまもないという問題があります。
したがって、第３の回避方法として、運用で逃げる（'～'は、システム上扱えないコードとしてユーザに我慢してもらう）という手もあります。

ちなみに、私は、多少パフォーマンスが落ちてもＯＫということで、(1)で再変換の道を選びました。

まぁ、最初からOracle9iR9.2を選んでいれば、ＯＫですけどね。また、検証はしていませんが、EUC-JPでも同様の問題があって、 Oracle9iR9.2からJA16EUCTILDEがサポートされているようです。

參考（Javaのデフォルトコンバータの推移）

Windowsで動かし、JISAutoで変換した場合のデフォルトコンバータは、誰の都合か知りませんが、以下のように変化しました。
まぁ、Windowsで動かす限り、Windows-31Jをcharsetにしておけば、JDK1.4.1以降でもＯＫのようです。

JDKのバージョン	デフォルトコンバータ	実裝されたコンバータ
JDK 1.1.7以前	SJISコンバータ
JDK 1.1.8	SJISコンバータ	MS932コンバータが実裝される
JDK 1.2 ～ 1.4.0	MS932コンバータ
JDK 1.4.1	SJISコンバータ
それ以降	保証なし？

posted on 2009-11-27 20:51 jinfeng_wang 閱讀(3099) 評論(0) 編輯收藏所屬分類: java 、ZZ

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: log4jdbc and hibernate pure java call jolt services 文字コードについて（シフトJISの問題） zz JMX を使用する監視と管理 zz JVM參數調優實踐 xx JVM調優總結 zz 應用服務器內存泄露問題診斷 JVM GC Parameter Java Thread.interrupt 害人！中斷JAVA線程（zz） XDoclet的build.xml寫法 zz

OS	Windows2000
データベースサーバ	Oracle8i R8.1.7
ＤＢ內部コード	JA16SJIS