JavaWorm — Sat, 18 Mar 2006 06:24:00 GMT

若想明白jsp开发过�E�中��Z��么会产生中文��q��Q�我们先来看看unicode�~�码�?br />Unicode �Q�统一码）��֐�思义是一个将世界上各�U�文字统一在一��L��东东。由��国各大电脑厂商�l�成的Unicode�{�进会来推动。目的，推广一个世界通用的编码体�Ӟ��惊世界上所有常用的文字都涵盖进去，从而减��个电脑商开发国外市场遇到的问题�?br />��Z��成千上万的文字�l�统攉��C��个共同的�~�码机制下，在兼�儡��的原则下，不管是东方还是西�Ҏ��字，每个字在Unicode中一律以两个Bytes来表�C�，�q�样臛_��?�?6�ơ方65536�U�不同的�l�合�Q��以应付目前绝大多数场合的需要�?br />基本上，计算机只是处理数字。它们指定一个数字，来储存字母或其他字符。在创造Unicode之前�Q�有数百�U�指定这些数字的�~�码�pȝ��。没有一个编码可以包含��够的字符�Q�例如，单单�Ƨ州共同体就需要好几种不同的编码来包括所有的语言。即使是单一�U�语�a��Q�例如英语，也没有哪一个编码可以适用于所有的字母�Q�标点符��P��和常用的技术符受��?br />�q�些�~�码�pȝ��也会互相冲突。也��是��_��两种�~�码可能使用相同的数字代表两个不同的字符�Q�或使用不同的数字代表相同的字符。�Q何一台特定的计算�?特别是服务器)都需要支持许多不同的�~�码�Q�但是，不论什么时候数据通过不同的编码或�q�_��之间�Q�那些数据��M��有损坏的危险�?br />Unicode�l�每个字�W�提供了一个唯一的数字，不论是什么��^収ͼ�不论是什么程序，不论什么语�a�。Unicode标准已经被这些工业界的领��g��所采用�Q�例如：Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它许多公司。最新的标准都需要Unicode�Q�例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML�{�等�Q��ƈ且，Unicode是实现ISO/IEC 10646的正规方式。许多操作系�l�，所有最新的��览器和许多其他产品都支持它。Unicode标准的出现和支持它工��L��存在�Q�是�q�来全球软�g技术最重要的发展趋�ѝ�?br />��Unicode与客��h��务器或多层应用程序和�|�站�l�合�Q�比使用传统字符集节省费用。Unicode使单一软�g产品或单一�|�站能够贯穿多个�q�_��Q�语�a�和国�Ӟ��而不需要重建。它可将数据传输到许多不同的�pȝ��Q�而无损坏�?br />在与Unicode相关的各技术文件中�Q�经�怼�看到ISO 10646和UCS�q�两个名词�?br />ISO是位于瑞士的国际标准局的羃写�?br />UCS为ISO颁布的第10646��h��?Universal Character Set,��是世界通用字符集�?br />UCS通用字符集采�?个Bytes来编�?��世界上所有的官用和商用编码大��通吃�Q�一�|�打��。Unicode�?991�q�便和ISO的UCS��组密切配合�Q�让Unicode和ISO 10646保持一致。因此Unicode �?.0版开始，便和 ISO 10646-1使用相同的编码�?br />��L��字典中的汉字�?�?千，如果再加上里面没有的��体字�Q�和不同写法的日文字�Q�那�?Unicode6万多的分配空��_��光用来分配汉字就昑־�捉禁见昼�Q�更别说什么泰文，阿拉伯等其他文字了。针对这个问题Unicode和UCS采用了[中日韩文整合]�Q�CJK Unification�Q�的解决�Ҏ��Q�把中日韩笔画详��的汉字用同一个单码表�C��?br />�l�过[中日韩文整合]的Unicode�U�Cؓ�l�汉字Unihan�?br />完整的Unicode4.0版可�?/font> http://www.unicode.org/Public/UNIDATA/Unihan.txt 下蝲�?br />
UTF (Unicode/UCS Transformation Format),Unicode推荐使用UTF-8和UTF-16两种格式其中8�?6指的是Bits数而不是Bytes数�?br />UTF-16基本��是Unicode双字节的实现�Q�加上一个应付未来需要的扩充�~�码机制�Q�很��用�Q?br />UTF-8 是一�U�不�{�幅的编码方式，英数字（Ascii字码�Q�保持原�Ӟ��完全不受影响�Q�因此不需要做转换�Q�，而其他汉字资料须透过�E�序来�{换，会[变胖]�Q�因为每个字需要额外一个或两个Bytes来编码�?br />UCS字符集中�Q�有UCS-2和UCS-4�{�编码方式其中的2�?指的是bytes敎ͼ�对应UTF-8和UTF-16.
UCS-2基本和Unicode双byte �~�码差不�?br />UCS-4�?byte�~�码表示一个字�Q�在每个 UCS-2前面加上两个�I�白的Byte�Q�便可得到对应的 UCS-4�?br />
Unicode的空间分配：
以下Unicode��Z��码均�?6�q�制表示
Unicode的前256个字�W�和ISO-8859-1(西欧字母)完全相同�Q�其中前半段��是Ascii(u+0000到u+00FF)。每个ISO-8859-1码前面补上一个空byte(0x00)后才是相应的Unicode码�?br />和我们切�w�相关的Unihan主要分布在u+3400到u+F9FFF之间�Q�GB2312和BIG5主要分布在u+4E00到U+9FFF之间�?br />
UTF-8的编码原理和�Ҏ��：
知道了西�Ƨ字�W�和汉字在Unicode中的位置后，来看看UTF-8

U+0000~U+007E 1 _ _ _ _ _ _ _ (7bits)
U+0080~U+07FF 1 1 0_ _ _ _ _ 1 0_ _ _ _ _ _ (11bits)
U+0800~U+FFFF 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ (16bits)
看一看Unicode三种格式提出自由的bits�Q�下划线�I�Z��Q�是否��以用来代表区位中各Unicode码，刚好够用�?br />那么当程序处理UTF-8�~�码文�g�Ӟ��如何得知一个字�W�的疆界落在哪里�Q�还有到底他是以三种形式那一中出现呢�Q?br />每个以UTF-8�~�码的字�W�，不管是以一、二、三个bytes出现�Q�第一个byte前端都清楚地标示了该字符的byte��L��。如110�U�有两个1�Q�代表这�U�字�W�是以第二种方式出现�Q�由两个bytes�l�成。�?110有三�?�Q�表�C��U�字�W�一点种方式出现�Q�由三个字节�l�成�?br />每个多重byte的UTF-8�~�码有一个共同的通性，卛_��中的�W�二个第三个byte, 一律以10两个bits开头。由于其中的最高位总设�?�Q�可以很�Ҏ��和那些在UTF-8中只用一个Byte的ASCII字元区分开来，方便侦错�?br />因�ؓ上述设计特点�Q�UTF-8和Unicode之间�Q�可以很�Ҏ��做双向自��p�{换，而不会丢�׃�Q何资料�?/font>

解决办法�Q��ؕ码问题在 NT操作�pȝ��我没怎么��到�q�，但是在UNIX 或LINUX�pȝ��上出现的比较�?br />�׃��操作�pȝ��和��用环境不一��P��产生��q��的方式也不一��P��但是如果掌握了上面的Unicode �~�码原理�Q�自�׃��l�分析一下，很多问题便可�q�刃而解�?br />下面看看几个常见的例子�?br />1�Q?如果一些网站服务器例如Tomcat 如果遇到中文��q��问题�Q�可以修改conf目录下的server.xml
enableLookups="false" redirectPort="8443" acceptCount="100" debug="0"connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="GBK"/>
URIENcoding 设成GBK或GB2312
2�Q?表单中或传递字�W�串�Q�本来输入的汉字是正常的�Q�但是提交后再显�C�出来是��q��Q�因为提交的一般是 ISO8859�~�码�Q�所以显�C�的时候要转成GB2312�~�码�Q?br />
String S=new String(rs.getString("news").getBytes("gb2312"),"ISO8859_1");
//rs为待转换的字�W�串
然后使用S字符串的值就可以�?br />3�Q?有的服务器端的语�a�环境如果设成��体中文的也可以解��x��c�问�?br />4�Q?插入数据库中的字�W�是��q��
看看数据库中支持的是何种�~�码方式�Q�用�c�M��2中的方式作一下�{换即可�?br />5�Q?��M��Q�用jsp开发，��到��q��Q�你得分析是�ȝ��时候发生�ؕ码，�q�是写的时候发生�ؕ码，�?中的转换�Q�基本就能解决问题，有些时候写的时候做一�ơ�{换，例如�Q?br />String S=new String(rs.getString("news").getBytes("gb2312"),"ISO8859_1");
//�ȝ��时候在转换回来
String S=new String(rs.getString("news").getBytes("ISO8859_1"),"GB2312");
或者把ISO8859-1和GB2312 的位�|�换一下，自己多试试，��p��扑ֈ�解决问题的办法�?/span>

来自�Q?a >http://blog.csdn.net/softj/archive/2006/03/15/625193.aspx

JavaWorm 2006-03-18 14:24 发表评论

欧美成人精品一区二区男人小说,国产亚洲欧美一区二区,日韩一级精品