国产日韩视频一区二区三区,久久这里有精品15一区二区三区,欧美日韩第一

KE — Thu, 20 Sep 2007 13:46:00 GMT

中文��q��问题产生的由�?/p>

在计��机中，只有二进制的数据�Q�不��数据是在内存中�Q�还是在外部讑֤�上�?br /> 对于我们所看到的字�W�，也是以二�q�制数据的�Ş式存在的。不同的字符对应�?br /> 二进制数的规则，��是字符的编码。字�W�编码的集合�U�Cؓ字符集�?/p>

常用的字�W�集
1 ASCII
2 ISO8859-1
3 GB2312和GBK

每个国家�Q�或者区域）都规定了计算��Z��息交换用的字�W�编码集�Q�这��造成�?br /> 交流上的困难。想象一下，你发送一��中文邮件给一位远在西班牙的朋友，当邮�?br /> 通过�|�络发送出�ȝ��时候，你所书写的中文字�W�会按照本地的字�W�集GBK转换成二�q�制
�~�码数据�Q�然后发送出厅R��当你的朋友接收以邮�Ӟ��二进制数据）后，查看信�g�Ӟ��?br /> 按照他所用的�pȝ��的字�W�集�Q�将二进制数据解码�ؓ字符�Q�然而由于两�U�字�W�集之间�~�码
规则的不同，��D��转换出现��q��。这是因为，在不同的字符集之��_��同样的数字可能对
应了不同的符��P��也可能在另一�U�字�W�集中，该数字没也对应的�W�号�?br /> ��决上�q�问题，�l�一全世界的字符�~�码�Q�由Unicode协会制定�q�发布了Unicode�~�码�?br /> 4 Unicode
5 UTF-8

对�ؕ码��生过�E�的分析

字符数据在各�U�不同的字符集之间�{换时�Q�就有可能会出现��q��?br /> xml处理器在没有被预先通知的情况下会默认文档数据�ؓUTF-8格式�?br /> �q�样在你书写xml文档�Ӟ��存在了UTF-8字符集和本地字符�q�行转换的过�E��?br /> 当向xml文档中写入数据的时候，需要将本地字符集编码的数据转换为UTF-8
�Q�而在输出字符数据的时候，则需要将UTF-8�~�码转换为本地字�W�集�~�码�?br /> 从上�q�的�q�程来看�Q�写入和输出的过�E�是可逆的。理应不会出��C��文�ؕ码问�?br /> 然而，实际应用的情形，比上�q�的�q�程要复杂的多。在WEB应用中，通过都包�?br /> ��览器、WEB服务器、WEB应用�E�序和数据库�{�部分，每一部分的都有可能��用不
同的字符集，从而导致数据在各种字符之间转换�Ӟ��出现了�ؕ码问题�?/p>

KE 2007-09-20 21:46 发表评论

KE — Thu, 13 Sep 2007 14:34:00 GMT

几种误解�Q�以及�ؕ码��生的原因和解军_��?

3.1 �Ҏ��产生的误�?/h5>

　对编码的误解

误解一在将“字节�?#8221;转化�?#8220;UNICODE 字符�?#8221;�Ӟ��比如在读取文本文件时�Q�或者通过�|�络传输文本�Ӟ��Ҏ��?#8220;字节�?#8221;��单地作�ؓ单字节字�W�串�Q�采用每“一个字�?#8221;��是“一个字�W?#8221;的方法进行�{化�?br />
而实际上�Q�在非英文的环境中，应该��?#8220;字节�?#8221;作�ؓ ANSI 字符�Ԍ��采用适当的编码来得到 UNICODE 字符�Ԍ��有可�?#8220;多个字节”才能得到“一个字�W?#8221;�?br />
通常�Q�一直在英文环境下做开发的�E�序员们�Q�容易有�q�种误解�?/td>

误解�?/td> �?DOS�Q�Windows 98 �{�非 UNICODE 环境下，字符串都是以 ANSI �~�码的字节�Ş式存在的。这�U�以字节形式存在的字�W�串�Q�必��ȝ��道是哪种�~�码才能被正��地使用。这使我们�Ş成了一个惯性思维�Q?#8220;字符串的�~�码”�?br />
�?UNICODE 被支持后�Q�Java 中的 String 是以字符�?#8220;序号”来存储的�Q�不是以“某种�~�码的字�?#8221;来存储的�Q�因此已�l�不存在“字符串的�~�码”�q�个概念了。只有在“字符�?#8221;�?#8220;字节�?#8221;转化�Ӟ��或者，��一�?#8220;字节�?#8221;当成一�?ANSI 字符串时�Q�才有编码的概念�?br />
不少的�h都有�q�个误解�?/td>

�W�一�U�误解，往往是导致�ؕ码��生的原因。第二种误解�Q�往往��D��本来�Ҏ��U�正的�ؕ码问题变得更复杂�?/p>
在这里，我们可以看到�Q�其中所讲的“误解一”�Q�即采用�?#8220;一个字�?#8221;��是“一个字�W?#8221;的�{化方法，实际上也��q��同于采用 iso-8859-1 �q�行转化。因此，我们常常使用 bytes = string.getBytes("iso-8859-1") 来进行逆向操作�Q�得到原始的“字节�?#8221;。然后再使用正确�?ANSI �~�码�Q�比�?string = new String(bytes, "GB2312")�Q�来得到正确�?#8220;UNICODE 字符�?#8221;�?/p>

3.2 �?UNICODE �E�序在不同语�a�环境间移植时的�ؕ�?/h5>
�?UNICODE �E�序中的字符�Ԍ��都是以某�U?ANSI �~�码形式存在的。如果程序运行时的语�a�环境与开发时的语�a�环境不同�Q�将会导�?ANSI 字符串的昄��p�|�?/p>
比如�Q�在日文环境下开发的�?UNICODE 的日文程序界面，拿到中文环境下运行时�Q�界面上��显�C�Zؕ码。如果这个日文程序界面改为采�?UNICODE 来记录字�W�串�Q�那么当在中文环境下�q�行�Ӟ��界面上将可以昄��正常的日文�?/p>
�׃��客观原因�Q�有时候我们必��d��中文操作�pȝ��下运行非 UNICODE 的日文��Y�Ӟ��q�时我们可以采用一些工��P��比如�Q�南极星�Q�AppLocale �{�，暂时的模拟不同的语言环境�?/p>

3.3 �|�页提交字符�?/h5>
当页面中的表单提交字�W�串�Ӟ��首先把字�W�串按照当前��面的编码，转化成字节串。然后再��每个字节�{化成 "%XX" 的格式提交到 Web 服务器。比如，一个编码�ؓ GB2312 的页面，提交 "�? �q�个字符串时�Q�提交给服务器的内容�?"%D6%D0"�?/p>
在服务器端，Web 服务器把收到�?"%D6%D0" 转化�?[0xD6, 0xD0] 两个字节�Q�然后再�Ҏ�� GB2312 �~�码规则得到 "�? 字�?/p>
�?Tomcat 服务器中�Q�request.getParameter() 得到��q��Ӟ��常常是因为前面提到的“误解一”造成的。默认情况下�Q�当提交 "%D6%D0" �l?Tomcat 服务器时�Q�request.getParameter() ��返�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�而不是返回一�?"�? 字符。因此，我们需要��?bytes = string.getBytes("iso-8859-1") 得到原始的字节串�Q�再�?string = new String(bytes, "GB2312") 重新得到正确的字�W�串 "�?�?/p>

3.4 从数据库��d��字符�?/h5>
通过数据库客��L��Q�比�?ODBC �?JDBC�Q�从数据库服务器中读取字�W�串�Ӟ��客户端需要从服务器获知所使用�?ANSI �~�码。当数据库服务器发送字节流�l�客��L��Ӟ��客户端负责将字节��按照正��的�~�码转化�?UNICODE 字符丌Ӏ?/p>
如果从数据库��d��字符串时得到��q��Q�而数据库中存攄��数据又是正确的，那么往往�q�是因�ؓ前面提到�?#8220;误解一”造成的。解决的办法�q�是通过 string = new String( string.getBytes("iso-8859-1"), "GB2312") 的方法，重新得到原始的字节串�Q�再重新使用正确的编码�{化成字符丌Ӏ?/p>

3.5 电子邮�g中的字符�?/h5>
当一�D?Text 或�?HTML 通过电子邮�g传送时�Q�发送的内容首先通过一�U�指定的字符�~�码转化�?#8220;字节�?#8221;�Q�然后再�?#8220;字节�?#8221;通过一�U�指定的传输�~�码�Q�Content-Transfer-Encoding�Q�进行�{化得到另一�?#8220;字节�?#8221;。比如，打开一��电子邮件源代码�Q�可以看到类似的内容�Q?/p>

Content-Type: text/plain;
charset="gb2312"
Content-Transfer-Encoding: base64

sbG+qcrQuqO17cf4yee74bGjz9W7+b3wudzA7dbQ0MQNCg0KvPKzxqO6uqO17cnnsaPW0NDEDQoNCg==

最常用�?Content-Transfer-Encoding �?Base64 �?Quoted-Printable 两种。在对二�q�制文�g或者中文文本进行�{化时�Q�Base64 得到�?#8220;字节�?#8221;�?Quoted-Printable 更短。在对英文文本进行�{化时�Q�Quoted-Printable 得到�?#8220;字节�?#8221;�?Base64 更短�?/p>
邮�g的标题，用了一�U�更��短的格式来标�?#8220;字符�~�码”�?#8220;传输�~�码”。比如，标题内容�?"�?�Q�则在邮件源代码中表�C�Zؓ�Q?/p>

// 正确的标题格�?/span>
Subject: =?GB2312?B?1tA=?=

其中�Q?/p>

�W�一�?#8220;=?”�?#8220;?”中间的部分指定了字符�~�码�Q�在�q�个例子中指定的�?GB2312�?
“?”�?#8220;?”中间�?#8220;B”代表 Base64。如果是“Q”则代�?Quoted-Printable�?
最�?#8220;?”�?#8220;?=”之间的部分，��是�l�过 GB2312 转化成字节串�Q�再�l�过 Base64 转化后的标题内容�?

如果“传输�~�码”改�ؓ Quoted-Printable�Q�同��P��如果标题内容�?"�?�Q?/p>

// 正确的标题格�?/span>
Subject: =?GB2312?Q?=D6=D0?=

如果阅读邮�g时出��Cؕ码，一般是因�ؓ“字符�~�码”�?#8220;传输�~�码”指定有误�Q�或者是没有指定。比如，有的发邮件组件在发送邮件时�Q�标�?"�?�Q?/p>

// 错误的标题格�?/span>
Subject: =?ISO-8859-1?Q?=D6=D0?=

�q�样的表�C�，实际上是明确指明了标题�ؓ [0x00D6, 0x00D0]�Q�即 "�?�Q�而不�?"�?�?/p>

4. 几种错误理解的纠�?/h4>

误解�Q?#8220;ISO-8859-1 是国际编码？”

非也。iso-8859-1 只是单字节字�W�集中最��单的一�U�，也就�?#8220;字节�~�号”�?#8220;UNICODE 字符�~�号”一致的那种�~�码规则。当我们要把一�?#8220;字节�?#8221;转化�?#8220;字符�?#8221;�Q�而又不知道它是哪一�U?ANSI �~�码�Ӟ��先暂时地�?#8220;每一个字�?#8221;作�ؓ“一个字�W?#8221;�q�行转化�Q�不会造成信息丢失。然后再使用 bytes = string.getBytes("iso-8859-1") 的方法可恢复到原始的字节丌Ӏ?/p>

误解�Q?#8220;Java 中，怎样知道某个字符串的内码�Q?#8221;

Java 中，字符串类 java.lang.String 处理的是 UNICODE 字符�Ԍ��不是 ANSI 字符丌Ӏ�我们只需要把字符串作�?#8220;抽象的符��L��?#8221;来看待。因此不存在字符串的内码的问题�?/p>

文章引用自：

KE 2007-09-13 22:34 发表评论

字符�Q�字节和�~�码

KE — Thu, 13 Sep 2007 14:25:00 GMT

字符�Q�字节和�~�码

[原创文章�Q��{载请保留或注明出处：http://www.regexlab.com/zh/encoding.htm]

�U�别�Q�中�U?/p>

摘要�Q�本文介�l�了字符与编码的发展�q�程�Q�相��x��늚�正确理解。�D例说明了一些实际应用中�Q�编码的实现�Ҏ��。然后，本文讲述了通常对字�W�与�~�码的几�U�误解，�׃��q�些误解而导致�ؕ码��生的原因�Q�以及消除�ؕ码的办法。本文的内容�늛��?#8220;中文问题”�Q?#8220;��q��问题”�?/p>
掌握�~�码问题的关键是正确地理解相��x��念，�~�码所涉及的技术其实是很简单的。因此，阅读本文旉��要慢��d��惻I��多思考�?/p>

引言

“字符与编�?#8221;是一个被�l�常讨论的话题。即使这��P��时常出现的�ؕ码仍然困扰着大家。虽然我们有很多的办法可以用来消除�ؕ码，但我们�ƈ不一定理解这些办法的内在原理。而有的�ؕ码��生的原因�Q�实际上�׃��底层代码本��n有问题所��D��的。因此，不仅是初学者会对字�W�编码感到模�p�，有的底层开发�h员同样对字符�~�码�~�Z��准确的理解�?/p>

回页�?/a>

1. �~�码问题的由来，相关概念的理�?/h4>

1.1 字符与编码的发展

从计��机对多国语�a�的支持角度看�Q�大致可以分��Z��个阶�D�：

	�pȝ��内码	说明	�pȝ��
阶段一	ASCII	计算机刚开始只支持��p��Q�其它语�a�不能够在计算��Z��存储和显�C��?/td>	英文 DOS
阶段�?/td>	ANSI�~�码 �Q�本地化�Q?/td>	��Z��计算机支持更多语�a��Q�通常使用 0x80~0xFF 范围�?2 个字节来表示 1 个字�W�。比如：汉字 '�? 在中文操作系�l�中�Q��?[0xD6,0xD0] �q�两个字节存储�?br /> 不同的国家和地区制定了不同的标准�Q�由此��生了 GB2312, BIG5, JIS �{�各自的�~�码标准。这些��?2 个字节来代表一个字�W�的各种汉字延�׾~�码方式�Q�称�?strong> ANSI �~�码。在��体中文系�l�下�Q�ANSI �~�码代表 GB2312 �~�码�Q�在日文操作�pȝ��下，ANSI �~�码代表 JIS �~�码�?br /> 不同 ANSI �~�码之间互不兼容�Q�当信息在国际间交流�Ӟ��无法��属于两�U�语�a�的文字，存储在同一�D?strong> ANSI �~�码的文本中�?/td>	中文 DOS�Q�中�?Windows 95/98�Q�日�?Windows 95/98
阶段�?/td>	UNICODE �Q�国际化�Q?/td>	��Z��使国际间信息交流更加方便�Q�国际组�l�制定了 UNICODE 字符�?/strong>�Q��ؓ各种语言中的每一个字�W�设定了�l�一�q�且唯一的数字编��P��以满��语言、跨�q�_��q�行文本转换、处理的要求�?/td>	Windows NT/2000/XP�Q�Linux�Q�Java

字符串在内存中的存放�Ҏ��Q?/p>

�?ASCII 阶段�Q?strong>单字节字�W�串使用一个字节存放一个字�W�（SBCS�Q�。比如，"Bob123" 在内存中为：

42	6F	62	31	32	33	00

B	o	b	1	2	3	\0

在��?ANSI �~�码支持多种语言阶段�Q�每个字�W��用一个字节或多个字节来表�C�（MBCS�Q�，因此�Q�这�U�方式存攄��字符也被�U�C��多字节字�W?/strong>。比如，"中文123" 在中�?Windows 95 内存中�ؓ7个字节，每个汉字�?个字节，每个英文和数字字�W�占1个字节：

D6 D0 CE C4 31 32 33 00

�?/td> �?/td> 1 2 3 \0

�?UNICODE 被采用之后，计算机存攑֭��W�串�Ӟ��改�ؓ存放每个字符�?UNICODE 字符集中的序受��目前计��机一般��?2 个字节（16 位）来存放一个序��P��DBCS�Q�，因此�Q�这�U�方式存攄��字符也被�U�C��宽字节字�W?/strong>。比如，字符�?"中文123" �?Windows 2000 下，内存中实际存攄��?5 个序��P��

2D 4E 87 65 31 00 32 00 33 00 00 00      ← �?x86 CPU 中，低字节在�?/font>

�?/td> �?/td> 1 2 3 \0 　

一共占 10 个字节�?/p>

回页�?/a>

1.2 字符�Q�字节，字符�?/h5>
理解�~�码的关键，是要把字�W�的概念和字节的概念理解准确。这两个概念�Ҏ��h��Q�我们在此做一下区分：

　 概念描述 举例

字符 ��Z��使用的记��P��抽象意义上的一个符受��?/td> '1', '�?, 'a', '$', '�K?, ……

字节计算��Z��存储数据的单元，一�?位的二进制数�Q�是一个很具体的存储空间�?/td> 0x01, 0x45, 0xFA, ……

ANSI
字符�?/td> 在内存中�Q�如�?#8220;字符”是以 ANSI �~�码形式存在的，一个字�W�可能��用一个字节或多个字节来表�C�，那么我们�U�这�U�字�W�串�?ANSI 字符�?/strong>或�?strong>多字节字�W�串�?/td> "中文123"
�Q�占7字节�Q?/span>

UNICODE
字符�?/td> 在内存中�Q�如�?#8220;字符”是以�?UNICODE 中的序号存在的，那么我们�U�这�U�字�W�串�?UNICODE 字符�?/strong>或�?strong>宽字节字�W�串�?/td> L"中文123"
�Q�占10字节�Q?/span>

�׃��不同 ANSI �~�码所规定的标准是不相同的�Q�因此，对于一个给定的多字节字�W�串�Q�我们必��ȝ��道它采用的是哪一�U�编码规则，才能够知道它包含了哪�?#8220;字符”。而对�?UNICODE 字符�?/strong>来说�Q�不��在什么环境下�Q�它所代表�?#8220;字符”内容��L��不变的�?/p>

回页�?/a>

1.3 字符集与�~�码

各个国家和地区所制定的不�?ANSI �~�码标准中，都只规定了各自语�a�所需�?#8220;字符”。比如：汉字标准�Q�GB2312�Q�中没有规定韩国语字�W�怎样存储。这�?ANSI �~�码标准所规定的内容包含两层含义：

使用哪些字符。也��是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符�?/strong>”�?
规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储�Q�这个规定就叫做“�~�码”�?

各个国家和地区在制定�~�码标准的时候，“字符的集�?#8221;�?#8220;�~�码”一般都是同时制定的。因此，�q�_��我们所说的“字符�?#8221;�Q�比如：GB2312, GBK, JIS �{�，除了�?#8220;字符的集�?#8221;�q�层含义外，同时也包含了“�~�码”的含义�?/p>
“UNICODE 字符�?/strong>”包含了各�U�语�a�中��用到的所�?#8220;字符”。用来给 UNICODE 字符集编码的标准有很多种�Q�比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig �{��?/p>

回页�?/a>

1.4 常用的编码简�?/h5>
��单介�l�一下常用的�~�码规则�Q��ؓ后边的章节做一个准备。在�q�里�Q�我们根据编码规则的特点�Q�把所有的�~�码分成三类�Q?/p>

分类 �~�码标准 说明

单字节字�W�编�?/td> ISO-8859-1 最��单的�~�码规则�Q�每一个字节直接作��Z��?UNICODE 字符。比如，[0xD6, 0xD0] �q�两个字节，通过 iso-8859-1 转化为字�W�串�Ӟ��直接得�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�即 "ÖÐ"�?br />
反之�Q�将 UNICODE 字符串通过 iso-8859-1 转化为字节串�Ӟ��只能正常转化 0~255 范围的字�W��?/td>

ANSI �~�码 GB2312,
BIG5,
Shift_JIS,
ISO-8859-2 …… �?UNICODE 字符串通过 ANSI �~�码转化�?#8220;字节�?#8221;�Ӟ��Ҏ��各自�~�码的规定，一�?UNICODE 字符可能转化成一个字节或多个字节�?br />
反之�Q�将字节串�{化成字符串时�Q�也可能多个字节转化成一个字�W�。比如，[0xD6, 0xD0] �q�两个字节，通过 GB2312 转化为字�W�串�Ӟ��得�?[0x4E2D] 一个字�W�，�?'�? 字�?br />
“ANSI �~�码”的特点：
1. �q�些“ANSI �~�码标准”都只能处理各自语�a�范围之内�?UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间的关�p�L��Zؓ规定的�?/td>

UNICODE �~�码 UTF-8,
UTF-16, UnicodeBig …… �?#8220;ANSI �~�码”�c�M��的，把字�W�串通过 UNICODE �~�码转化�?#8220;字节�?#8221;�Ӟ��一�?UNICODE 字符可能转化成一个字节或多个字节�?br />
�?#8220;ANSI �~�码”不同的是�Q?br /> 1. �q�些“UNICODE �~�码”能够处理所有的 UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间是可以通过计算得到的�?/td>

我们实际上没有必要去��q��每一�U�编码具体把某一个字�W�编码成了哪几个字节�Q�我们只需要知�?#8220;�~�码”的概念就是把“字符”转化�?#8220;字节”��可以了。对�?#8220;UNICODE �~�码”�Q�由于它们是可以通过计算得到的，因此�Q�在�Ҏ��的场合，我们可以��M��解某一�U?#8220;UNICODE �~�码”是怎样的规则�?/p>

回页�?/a>

2. 字符与编码在�E�序中的实现

2.1 �E�序中的字符与字�?/h5>
�?C++ �?Java 中，用来代表“字符”�?#8220;字节”的数据类型，以及�q�行�~�码的方法：

�c�d��或操�?/strong> C++ Java

字符 wchar_t char

字节 char byte

ANSI 字符�?/td> char[] byte[]

UNICODE 字符�?/td> wchar_t[] String

字节�?#8594;字符�?/td> mbstowcs(), MultiByteToWideChar() string = new String(bytes, "encoding")

字符�?#8594;字节�?/td> wcstombs(), WideCharToMultiByte() bytes = string.getBytes("encoding")

以上需要注意几点：

Java 中的 char 代表一�?#8220;UNICODE 字符�Q�宽字节字符�Q?#8221;�Q��?C++ 中的 char 代表一个字节�?
MultiByteToWideChar() �?WideCharToMultiByte() �?Windows API 函数�?

回页�?/a>

2.2 C++ 中相兛_��现方�?/h5>
声明一�D�字�W�串帔R��Q?/p>

// ANSI 字符�Ԍ��内容长度 7 字节
char     sz[20] = "中文123";

// UNICODE 字符�Ԍ��内容长度 5 �?wchar_t�Q?0 字节�Q?/span>
wchar_t wsz[20] = L"\x4E2D\x6587\x0031\x0032\x0033";

UNICODE 字符串的 I/O 操作�Q�字�W�与字节的�{换操作：

// �q�行时设定当�?ANSI �~�码�Q�VC 格式
setlocale(LC_ALL, ".936");

// GCC 中格�?/span>
setlocale(LC_ALL, "zh_CN.GBK");

// Visual C++ 中��用小�?%s�Q�按�?setlocale 指定�~�码输出到文�?br /> // GCC 中��用大�?%S
fwprintf(fp, L"%s\n", wsz);

// �?UNICODE 字符串按�?setlocale 指定的编码�{换成字节
wcstombs(sz, wsz, 20);
// 把字节串按照 setlocale 指定的编码�{换成 UNICODE 字符�?br /> mbstowcs(wsz, sz, 20);

�?Visual C++ 中，UNICODE 字符串常量有更简单的表示�Ҏ��。如果源�E�序的编码与当前默认 ANSI �~�码不符�Q�则需要��?#pragma setlocale�Q�告诉编译器源程序��用的�~�码�Q?/p>

// 如果源程序的�~�码与当前默�?ANSI �~�码不一��_��
// 则需要此行，�~�译时用来指明当前源�E�序使用的编�?/span>
#pragma setlocale(".936")

// UNICODE 字符串常量，内容长度 10 字节
wchar_t wsz[20] = L"中文123";

以上需要注�?#pragma setlocale �?setlocale(LC_ALL, "") 的作用是不同的，#pragma setlocale 在编译时起作用，setlocale() 在运行时起作用�?/p>

回页�?/a>

2.3 Java 中相兛_��现方�?/h5>
字符串类 String 中的内容�?UNICODE 字符�Ԍ��

// Java 代码�Q�直接写中文
String string = "中文123";

// 得到长度�?5�Q�因为是 5 个字�W?/span>
System.out.println(string.length());

字符�?I/O 操作�Q�字�W�与字节转换操作。在 Java �?java.io.* 中，�?#8220;Stream”�l�尾的类一般是用来操作“字节�?#8221;的类�Q�以“Reader”�Q?#8220;Writer”�l�尾的类一般是用来操作“字符�?#8221;的类�?/p>

// 字符串与字节串间�怺�转化

// 按照 GB2312 得到字节�Q�得到多字节字符�Ԍ��
byte [] bytes = string.getBytes("GB2312");

// 从字节按�?GB2312 得到 UNICODE 字符�?/span>
string = new String(bytes, "GB2312");

// 要将 String 按照某种�~�码写入文本文�g�Q�有两种�Ҏ��Q?br />
// �W�一�U�办法：�?Stream �c�d��入已�l�按照指定编码�{化好的字节串
OutputStream os = new FileOutputStream("1.txt");
os.write(bytes);
os.close();

// �W�二�U�办法：构造指定编码的 Writer 来写入字�W�串
Writer ow = new OutputStreamWriter(new FileOutputStream("2.txt"), "GB2312");
ow.write(string);
ow.close();

/* 最后得到的 1.txt �?2.txt 都是 7 个字�?*/

如果 java 的源�E�序�~�码与当前默�?ANSI �~�码不符�Q�则在编译的时候，需要指明一下源�E�序的编码。比如：

E:\>javac -encoding BIG5 Hello.java

以上需要注意区分源�E�序的编码与 I/O 操作的编码，前者是在编译时起作用，后者是在运行时起作用�?/p>

回页�?/a>

3. 几种误解�Q�以及�ؕ码��生的原因和解军_��?/h4>
3.1 �Ҏ��产生的误�?/h5>

　 对编码的误解

误解一在将“字节�?#8221;转化�?#8220;UNICODE 字符�?#8221;�Ӟ��比如在读取文本文件时�Q�或者通过�|�络传输文本�Ӟ��Ҏ��?#8220;字节�?#8221;��单地作�ؓ单字节字�W�串�Q�采用每“一个字�?#8221;��是“一个字�W?#8221;的方法进行�{化�?br />
而实际上�Q�在非英文的环境中，应该��?#8220;字节�?#8221;作�ؓ ANSI 字符�Ԍ��采用适当的编码来得到 UNICODE 字符�Ԍ��有可�?#8220;多个字节”才能得到“一个字�W?#8221;�?br />
通常�Q�一直在英文环境下做开发的�E�序员们�Q�容易有�q�种误解�?/td>

误解�?/td> �?DOS�Q�Windows 98 �{�非 UNICODE 环境下，字符串都是以 ANSI �~�码的字节�Ş式存在的。这�U�以字节形式存在的字�W�串�Q�必��ȝ��道是哪种�~�码才能被正��地使用。这使我们�Ş成了一个惯性思维�Q?#8220;字符串的�~�码”�?br />
�?UNICODE 被支持后�Q�Java 中的 String 是以字符�?#8220;序号”来存储的�Q�不是以“某种�~�码的字�?#8221;来存储的�Q�因此已�l�不存在“字符串的�~�码”�q�个概念了。只有在“字符�?#8221;�?#8220;字节�?#8221;转化�Ӟ��或者，��一�?#8220;字节�?#8221;当成一�?ANSI 字符串时�Q�才有编码的概念�?br />
不少的�h都有�q�个误解�?/td>

�W�一�U�误解，往往是导致�ؕ码��生的原因。第二种误解�Q�往往��D��本来�Ҏ��U�正的�ؕ码问题变得更复杂�?/p>
在这里，我们可以看到�Q�其中所讲的“误解一”�Q�即采用�?#8220;一个字�?#8221;��是“一个字�W?#8221;的�{化方法，实际上也��q��同于采用 iso-8859-1 �q�行转化。因此，我们常常使用 bytes = string.getBytes("iso-8859-1") 来进行逆向操作�Q�得到原始的“字节�?#8221;。然后再使用正确�?ANSI �~�码�Q�比�?string = new String(bytes, "GB2312")�Q�来得到正确�?#8220;UNICODE 字符�?#8221;�?/p>

回页�?/a>

3.2 �?UNICODE �E�序在不同语�a�环境间移植时的�ؕ�?/h5>
�?UNICODE �E�序中的字符�Ԍ��都是以某�U?ANSI �~�码形式存在的。如果程序运行时的语�a�环境与开发时的语�a�环境不同�Q�将会导�?ANSI 字符串的昄��p�|�?/p>
比如�Q�在日文环境下开发的�?UNICODE 的日文程序界面，拿到中文环境下运行时�Q�界面上��显�C�Zؕ码。如果这个日文程序界面改为采�?UNICODE 来记录字�W�串�Q�那么当在中文环境下�q�行�Ӟ��界面上将可以昄��正常的日文�?/p>
�׃��客观原因�Q�有时候我们必��d��中文操作�pȝ��下运行非 UNICODE 的日文��Y�Ӟ��q�时我们可以采用一些工��P��比如�Q�南极星�Q�AppLocale �{�，暂时的模拟不同的语言环境�?/p>

回页�?/a>

3.3 �|�页提交字符�?/h5>
当页面中的表单提交字�W�串�Ӟ��首先把字�W�串按照当前��面的编码，转化成字节串。然后再��每个字节�{化成 "%XX" 的格式提交到 Web 服务器。比如，一个编码�ؓ GB2312 的页面，提交 "�? �q�个字符串时�Q�提交给服务器的内容�?"%D6%D0"�?/p>
在服务器端，Web 服务器把收到�?"%D6%D0" 转化�?[0xD6, 0xD0] 两个字节�Q�然后再�Ҏ�� GB2312 �~�码规则得到 "�? 字�?/p>
�?Tomcat 服务器中�Q�request.getParameter() 得到��q��Ӟ��常常是因为前面提到的“误解一”造成的。默认情况下�Q�当提交 "%D6%D0" �l?Tomcat 服务器时�Q�request.getParameter() ��返�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�而不是返回一�?"�? 字符。因此，我们需要��?bytes = string.getBytes("iso-8859-1") 得到原始的字节串�Q�再�?string = new String(bytes, "GB2312") 重新得到正确的字�W�串 "�?�?/p>

回页�?/a>

3.4 从数据库��d��字符�?/h5>
通过数据库客��L��Q�比�?ODBC �?JDBC�Q�从数据库服务器中读取字�W�串�Ӟ��客户端需要从服务器获知所使用�?ANSI �~�码。当数据库服务器发送字节流�l�客��L��Ӟ��客户端负责将字节��按照正��的�~�码转化�?UNICODE 字符丌Ӏ?/p>
如果从数据库��d��字符串时得到��q��Q�而数据库中存攄��数据又是正确的，那么往往�q�是因�ؓ前面提到�?#8220;误解一”造成的。解决的办法�q�是通过 string = new String( string.getBytes("iso-8859-1"), "GB2312") 的方法，重新得到原始的字节串�Q�再重新使用正确的编码�{化成字符丌Ӏ?/p>

回页�?/a>

3.5 电子邮�g中的字符�?/h5>
当一�D?Text 或�?HTML 通过电子邮�g传送时�Q�发送的内容首先通过一�U�指定的字符�~�码转化�?#8220;字节�?#8221;�Q�然后再�?#8220;字节�?#8221;通过一�U�指定的传输�~�码�Q�Content-Transfer-Encoding�Q�进行�{化得到另一�?#8220;字节�?#8221;。比如，打开一��电子邮件源代码�Q�可以看到类似的内容�Q?/p>

Content-Type: text/plain;
        charset="gb2312"
Content-Transfer-Encoding: base64

sbG+qcrQuqO17cf4yee74bGjz9W7+b3wudzA7dbQ0MQNCg0KvPKzxqO6uqO17cnnsaPW0NDEDQoNCg==

最常用�?Content-Transfer-Encoding �?Base64 �?Quoted-Printable 两种。在对二�q�制文�g或者中文文本进行�{化时�Q�Base64 得到�?#8220;字节�?#8221;�?Quoted-Printable 更短。在对英文文本进行�{化时�Q�Quoted-Printable 得到�?#8220;字节�?#8221;�?Base64 更短�?/p>
邮�g的标题，用了一�U�更��短的格式来标�?#8220;字符�~�码”�?#8220;传输�~�码”。比如，标题内容�?"�?�Q�则在邮件源代码中表�C�Zؓ�Q?/p>

// 正确的标题格�?/span>
Subject: =?GB2312?B?1tA=?=

其中�Q?/p>

�W�一�?#8220;=?”�?#8220;?”中间的部分指定了字符�~�码�Q�在�q�个例子中指定的�?GB2312�?
“?”�?#8220;?”中间�?#8220;B”代表 Base64。如果是“Q”则代�?Quoted-Printable�?
最�?#8220;?”�?#8220;?=”之间的部分，��是�l�过 GB2312 转化成字节串�Q�再�l�过 Base64 转化后的标题内容�?

如果“传输�~�码”改�ؓ Quoted-Printable�Q�同��P��如果标题内容�?"�?�Q?/p>

// 正确的标题格�?/span>
Subject: =?GB2312?Q?=D6=D0?=

如果阅读邮�g时出��Cؕ码，一般是因�ؓ“字符�~�码”�?#8220;传输�~�码”指定有误�Q�或者是没有指定。比如，有的发邮件组件在发送邮件时�Q�标�?"�?�Q?/p>

// 错误的标题格�?/span>
Subject: =?ISO-8859-1?Q?=D6=D0?=

�q�样的表�C�，实际上是明确指明了标题�ؓ [0x00D6, 0x00D0]�Q�即 "ÖÐ"�Q�而不�?"�?�?/p>

回页�?/a>

4. 几种错误理解的纠�?/h4>
误解�Q?#8220;ISO-8859-1 是国际编码？”

非也。iso-8859-1 只是单字节字�W�集中最��单的一�U�，也就�?#8220;字节�~�号”�?#8220;UNICODE 字符�~�号”一致的那种�~�码规则。当我们要把一�?#8220;字节�?#8221;转化�?#8220;字符�?#8221;�Q�而又不知道它是哪一�U?ANSI �~�码�Ӟ��先暂时地�?#8220;每一个字�?#8221;作�ؓ“一个字�W?#8221;�q�行转化�Q�不会造成信息丢失。然后再使用 bytes = string.getBytes("iso-8859-1") 的方法可恢复到原始的字节丌Ӏ?/p>
误解�Q?#8220;Java 中，怎样知道某个字符串的内码�Q?#8221;

Java 中，字符串类 java.lang.String 处理的是 UNICODE 字符�Ԍ��不是 ANSI 字符丌Ӏ�我们只需要把字符串作�?#8220;抽象的符��L��?#8221;来看待。因此不存在字符串的内码的问题�?/p>

KE 2007-09-13 22:25 发表评论

Tomcat中文��q��问题原因和解��x��?

KE — Thu, 13 Sep 2007 07:26:00 GMT

Tomcat中文��q��问题原因和解��x��?/a>
自从接触Java和JSP以来�Q�就不断与Java的中文�ؕ码问题打交道�Q�现在终于得��C��d��的解冻I��现将我们的解军_��得与大家�׃�n�?
　　一、Java中文问题的由�?/p>
　　Java的内核和class文�g是基于unicode的，�q��Java�E�序��h��良好的跨�q�_��性，但也带来了一些中文�ؕ码问题的�ȝ��。原因主要有两方面，Java和JSP文�g本��n�~�译时��生的��q��问题和Java�E�序于其他媒介交互��生的��q��问题�?/p>
　　首先Java�Q�包括JSP�Q�源文�g中很可能包含有中文，而Java和JSP源文件的保存方式是基于字节流的，如果Java和JSP�~�译成class文�g�q�程中，使用的编码方式与源文件的�~�码不一��_��׃��出现��q��。基于这�U��ؕ码，��在Java文�g中尽量不要写中文�Q�注释部分不参与�~�译�Q�写中文没关�p�）�Q�如果必��d��的话�Q�尽量手动带参数�Q�ecoding GBK或－ecoding gb2312�~�译�Q�对于JSP�Q�在文�g头加�?lt;%@ page contentType="text/html;charset=GBK"%>�?lt;%@ page contentType="text/html;charset=gb2312"%>基本上就能解册��c�Mؕ码问题�?/p>
　　本文要重点讨论的是第二类��q��Q�即Java�E�序与其他存储媒介交互时产生的�ؕ码。很多存储媒介，如数据库�Q�文�Ӟ��等的存储方式都是基于字节流的，Java�E�序与这些媒介交互时��׃��发生字符(char)与字�?byte)之间的�{换，例如从页面提交表单中提交的数据在Java�E�序里显�C�Zؕ码等情况�?/p>
　　如果在以上�{换过�E�中使用的编码方式与字节原有的编码不一��_��很可能就会出��Cؕ码�?/p>
　　二、解��x��?/p>
　　对于��行的Tomcat来说�Q�有以下两种解决�Ҏ��Q?/p>
　　1) 更改 D:\Tomcat\conf\server.xml�Q�指定浏览器的编码格式�ؓ“��体中�?#8221;�Q?/p>
　　�Ҏ��是找�?server.xml 中的

        enableLookups="false" redirectPort="8443" acceptCount="100"
    connectionTimeout="20000" disableUploadTimeout="true" URIEncoding='GBK' />

　　标记�Q�粗体字是我��d��的�?/p>
　　可以�q�样验证你的更改是否成功�Q�在更改前，在你出现��q��的页面的IE��览器，点击菜单“查看｜编�?#8221;�Q�会发现“西欧(ISO)”处于选中状态。而更改后�Q�点击菜�?#8220;查看｜编�?#8221;�Q�会发现“��体中�?GB2312)”处于选中状态�?/p>
　　b)更该 Java �E�序�Q�我的程序是�q�样的：

public class ThreeParams extends HttpServlet {
public void doGet(HttpServletRequest request, HttpServletResponse response)
   throws ServletException, IOException {
      response.setContentType("text/html; charset=GBK");
      ...
}
}

　　�_�体字是必需要有的，它的作用是让��览器把Unicode字符转换为GBK字符。这样页面的内容和浏览器的显�C�模式都设成了GBK�Q�就不会��q��了�?br />
本文来自http://www.aygfsteel.com/kemi/archive/2007/07/10/129220.html

KE 2007-09-13 15:26 发表评论

�~�码基本知识

KE — Thu, 13 Sep 2007 07:12:00 GMT
�~�码基本知识�Q?

最早的�~�码是iso8859-1�Q�和ascii�~�码�怼�。但��Z��方便表示各种各样的语�a��Q�逐渐出现了很�?nobr oncontextmenu="return false;" onmousemove="kwM(0);" id="key0" onmouseover="kwE(event,0, this);" style="color: #6600ff; border-bottom: #6600ff 1px dotted; background-color: transparent; text-decoration: underline" onclick="return kwC();" onmouseout="kwL(event, this);" target="_blank">标准�~�码�Q�重要的有如下几�?

1. iso8859-1

属于单字节编码，最多能表示的字�W�范围是0-255�Q�应用于英文�p�d��。比如，字母a的编码�ؓ0x61=97�?/p>

很明显，iso8859-1�~�码表示的字�W�范围很�H�，无法表示中文字符。但是，�׃��是单字节�~�码�Q�和计算机最基础的表�C�单位一��_��所以很多时候，仍旧使用iso8859-1�~�码来表�C�。而且在很多协议上�Q�默认��用该�~�码。比如，虽然"中文"两个字不存在iso8859-1�~�码�Q�以gb2312�~�码��Z��Q�应该是"d6d0 cec4"两个字符�Q��用iso8859-1�~�码的时候则��它拆开�?个字节来表示�Q?d6 d0 ce c4"�Q�事实上�Q�在�q�行存储的时候，也是以字节�ؓ单位处理的）。而如果是UTF�~�码�Q�则�?个字�?e4 b8 ad e6 96 87"。很明显�Q�这�U�表�C?nobr oncontextmenu="return false;" onmousemove="kwM(3);" id="key3" onmouseover="kwE(event,3, this);" style="color: #6600ff; border-bottom: #6600ff 1px dotted; background-color: transparent; text-decoration: underline" onclick="return kwC();" onmouseout="kwL(event, this);" target="_blank">�Ҏ��q�需要以另一�U�编码�ؓ基础�?/p>

2. GB2312/GBK

�q�就是汉子的国标码，专门用来表示汉字�Q�是双字节编码，而英文字母和iso8859-1一��_��兼容iso8859-1�~�码�Q�。其中gbk�~�码能够用来同时表示�J�体字和��体字�Q�而gb2312只能表示��体字�Q�gbk是兼容gb2312�~�码的�?/p>

3. unicode

�q�是最�l�一的编码，可以用来表示所有语�a�的字�W�，而且是定长双字节�Q�也有四字节的）�~�码�Q�包括英文字母在内。所以可以说它是不兼容iso8859-1�~�码的，也不兼容��M��~�码。不�q�，相对于iso8859-1�~�码来说�Q�uniocode�~�码只是在前面增加了一�?字节�Q�比如字母a�?00 61"�?/p>

需要说明的是，定长�~�码便于计算机处理（注意GB2312/GBK不是定长�~�码�Q�，而unicode又可以用来表�C�所有字�W�，所以在很多软�g内部是��用unicode�~�码来处理的�Q�比�?nobr oncontextmenu="return false;" onmousemove="kwM(4);" id="key4" onmouseover="kwE(event,4, this);" style="color: #6600ff; border-bottom: #6600ff 1px dotted; background-color: transparent; text-decoration: underline" onclick="return kwC();" onmouseout="kwL(event, this);" target="_blank">java�?/p>

4. UTF

考虑到unicode�~�码不兼容iso8859-1�~�码�Q�而且�Ҏ��占用更多的空��_��因�ؓ对于英文字母�Q�unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而��生了utf�~�码�Q�utf�~�码兼容iso8859-1�~�码�Q�同时也可以用来表示所有语�a�的字�W�，不过�Q�utf�~�码是不定长�~�码�Q�每一个字�W�的长度�?-6个字节不�{�。另外，utf�~�码自带��?/nobr>的校验功能。一般来�Ԍ��英文字母都是用一个字节表�C�，而汉字��用三个字节�?/p>

注意�Q�虽然说utf是�ؓ了��用更��的�I�间而��用的�Q�但那只是相对于unicode�~�码来说�Q�如果已�l�知道是汉字�Q�则使用GB2312/GBK无疑是最节省的。不�q�另一斚w��Q�值得说明的是�Q�虽然utf�~�码�Ҏ��字��?个字节，但即使对于汉字网��，utf�~�码也会比unicode�~�码节省�Q�因为网��中包含了很多的英文字符�?br />
本文来自http://digest.softhouse.com.cn/digest/show/28639.html

KE 2007-09-13 15:12 发表评论

常用字符集编码的概要�Ҏ��（二）

KE — Thu, 13 Sep 2007 07:01:00 GMT

BIG5

Big5是双字节�~�码�Q�高字节�~�码范围�?x81-0xFE�Q�低字节�~�码范围�?x40-0x7E�?xA1-0xFE。和GBK相比�Q�少了低字节�?x80-0xA0的组合�?x8140-0xA0FE是保留区域，用于用户造字区�?/p>
Big5收录的汉字只包括�J�体汉字�Q�不包括��体汉字，一些生�ȝ��汉字也没有收录。GBK收录的日文假名字�W�、俄文字�W�Big5也没有收录。因为Big5当中收录的字�W�有限，因此有很多在Big5基础上扩展的�~�码�Q�如倚天中文�pȝ��。Windows�pȝ��上��用的代码��CP950也可以理解�ؓ是对Big5的扩展，在Big5的基��上增加了7个汉字和一些符受��Big5�~�码对应的字�W�集是GBK字符集的子集�Q�也��是说Big5收录的字�W�是GBK收录字符的一部分�Q�但相同字符的编码不同�?/p>
因�ؓBig5也占用了ASCII的编码空��_��低字节所使用�?x40-0x7E�Q�，所以Big5�~�码在一些环境下存在和GBK�~�码相同的问题，即低字节范围�?x40-0x7E的字�W�有可能会被误处理，��其是低字节�?x5C�Q?/"�Q�和0x7C�Q?|"�Q�的字符。可以参�?strong>GBK一节相应说明�?/p>
��管有些区别�Q�大多数情况下可以把CP950当作Big5的别名�?/p>
ISO-8859-1

ISO-8859-1�~�码是单字节�~�码�Q�向下兼容ASCII�Q�其�~�码范围�?x00-0xFF�Q?x00-0x7F之间完全和ASCII一��_��0x80-0x9F之间是控制字�W�，0xA0-0xFF之间是文字符受��?/p>
ISO-8859-1收录的字�W�除ASCII收录的字�W�外�Q�还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字�W�号。欧元符号出现的比较晚，没有被收录在ISO-8859-1当中�?/p>
因�ؓISO-8859-1�~�码范围使用了单字节内的所有空��_��在支持ISO-8859-1的系�l�中传输和存储其他�Q何编码的字节��都不会被抛弃。换�a�之，把其他�Q何编码的字节��当作ISO-8859-1�~�码看待都没有问题。这是个很重要的�Ҏ��，MySQL数据库默认编码是Latin1��是利用了这个特性。ASCII�~�码是一�?位的容器�Q�ISO-8859-1�~�码是一�?位的容器�?/p>
Latin1是ISO-8859-1的别名，有些环境下写作Latin-1�?/p>
UCS-2和UTF-16

Unicode�l�织�?a >ISO�l�织都试囑֮�义一个超大字�W�集�Q�目的是要涵盖所有语�a�使用的字�W�以及其他学�U��用的一些特�D�符��P��q�个字符集就是通用字符集（UCS�Q�Universal Character Set�Q�。这两个�l�织�l�过协调�Q�虽然在各自发展�Q�但定义的字�W�位�|�是完全一致的。ISO相应的标准是ISO 10646。Unicode和ISO 10646都在不断的发展过�E�中�Q�所以会有不同的版本��h��标明不同的发展阶�D�，每个Unicode版本号都能找到相对应的ISO 10646版本受��?/p>
ISO 10646标准定义了一�?1位的字符集。前两个字节的位�|�（0x0000-0xFFFD�Q�被�U�Cؓ基本多语�a�面（Basic Multilingual Plane, BMP�Q?�Q�超��Z��个字节的范围�U�C��辅助语言面。BMP基本包括了所有语�a�中绝大多数字�W�，所以只要支持BMP��可以支持绝大多数场合下的应用。Unicode 3.0对应的字�W�集在BMP范围内�?/p>
UCS字符集�ؓ每个字符分配了一个位�|�，通常�?#8220;U”再加上某个字�W�在UCS中位�|�的16�q�制��C��个字�W�的UCS表示�Q�例�?#8220;U+0041”表示字符“A”。UCS字符U+0000到U+00FF与ISO-8859-1完全一致�?/p>
UCS-2、UTF-16是UCS字符集（或者说是Unicode字符集）实际应用中的具体�~�码方式。UCS-2是两个字节的�{�宽�~�码�Q�因为只是��用了两个字节的编码空��_��所以只能对BMP中的字符做编码。UTF-16是变长编码，用两个字节对BMP内的字符�~�码�Q�用4个字节对��出BMP范围的辅助��^面内的字�W�作�~�码�?/p>
UCS-2不同于GBK和Big5�Q�它是真正的�{�宽�~�码�Q�每个字�W�都使用两个字节�Q�这个特性在字符串截断和字符数计��时非常方便�?/span>

UTF-16是UCS-2的超集，UTF-16�~�码的两字节�~�码方式完全和UCS-2相同�Q�也��是说在BMP的框架内UCS-2完全�{�同与UTF-16。实际情况当中常常把UCS-16当作UCS-2的别名�?/p>
UCS-2和UTF-16在存储和传输时会使用两种不同的字节序�Q�分别是big endian和little endian�Q�大��֒��尾�Q�。例�?#8220;�?#8221;�Q�U+554A�Q�用big endian表示��是0x554A�Q�用little endian表示��是0x4A55。UCS-2和UTF-16默认的字节序是big endian方式。在传输�q�程中�ؓ了说明字节序需要在字节��前加上BOM�Q�Byte order Mark�Q�，0xFEFF表示是big endian�Q?xFFFE表示是little endian。UCS-2BE、UCS-2LE是实际应用中使用的编码名�U�ͼ�对应着big endian和little endian�Q�UTF-16BE、UTF-16LE也是如此。因为默认是BE字节序，所以可以把UCS-2当做是UCS-2BE的别名�?/span>

在UCS�~�码中有一个叫�?#8220;ZERO WIDTH NO-BREAK SPACE”的字�W�，它的�~�码是U+FEFF�Q�是个没有实际意义的字符。UCS规范��我们在传输字节流前，先传输字�W?#8220;ZERO WIDTH NO-BREAK SPACE”�Q�如果传输的ZERO WIDTH NO-BREAK SPACE�?xFEFF��p��明是big endian�Q�反之就是little endian�?/span>

UCS-2和UTF-16也可以理解�ؓ和ASCII以及ISO-8859-1兼容�Q�在ASCII�~�码或者ISO-8859-1�~�码的每个字节前加上0x00�Q�就得到相应字符的UCS-2�~�码�?/span>

UCS-2和UTF-16中会使用0x00作�ؓ某个字符�~�码的一部分�Q�某些系�l�会�?x00当作字符串结束的标志�Q�在处理UCS-2或UTF-16�~�码时会出现问题�?/span>

UTF-8

UTF-8是UCS字符集的另一�U�编码方式，UTF-16的每个单元是两个字节�Q?6位）�Q�而UTF-8的每个单元是一个字节（8位）。UTF-16中用一个或两个双字节表�C�Z��个字�W�，UTF-8中用一个或几个单字节表�C�Z��个字�W��?/p>
可以认�ؓUTF-8�~�码是根据一定规律从UCS-2转换得到的，从UCS-2到UTF-8之间有以下�{换关�p�：

UCS-2 UTF-8

U+0000 - U+007F 0xxxxxxx

U+0080 - U+07FF 110xxxxx 10xxxxxx

U+0800 - U+FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“�?#8221;字的UCS-2�~�码�?x554A�Q�对应的二进制是0101 0101 0100 1010�Q��{成UTF-8�~�码之后的二�q�制�?110 0101 10 010101 10 001010�Q�对应的十六�q�制�?xE5958A�?/p>

UCS-4也是一�U�UCS字符集的�~�码方式�Q�是使用4个字节的�{�宽�~�码�Q�可以用UCS-4来表�C�BMP之外的辅助面字符。UCS-2中每两个字节前再加上0x0000��得��C��BMP字符的UCS-4�~�码。从UCS-4到UTF-8也存在�{换关�p�，�Ҏ��q�种转换关系�Q�UTF-8最多可以��用六个字节来�~�码UCS-4�?/p>

�Ҏ��UTF-8的生成规律和UCS字符集的�Ҏ��，可以看到UTF-8��h��的特性：

UTF-8完全和ASCII兼容�Q�也��是说ASCII对应的字�W�在UTF-8中和ASCII�~�码完全一致。范围在0x00-0x7F之内的字�W�一定是ASCII字符�Q�不可能是其他字�W�的一部分。GBK和Big5都存在的�~�陷在UTF-8中是不存在的�?
大于U+007F的UCS字符�Q�在UTF-8�~�码中至��是两个字节�?
UTF-8中的每个字符�~�码的首字节��d��0x00-0xFD之间�Q�不考虑UCS-4支持的情况，首字节在0x00-0xEF之间�Q�。根据首字节��可以判断之后连�l�几个字节�?
非首字节的其他字节都�?x80-0xBF之间�Q?xFE�?xFF在UTF-8中没有被用到�?
GBK�~�码中的汉字字符都在UCS-2中的范围都在U+0800 - U+FFFF之间�Q�所以每个GBK�~�码中的汉字字符的UTF-8�~�码都是3个字节。但GBK中包含的其他字符的UTF-8�~�码��׃��一定是3个字节了�Q�如GBK中的俄文字符�?

在UTF-8的编码的传输�q�程中即使丢掉一个字节，�Ҏ��~�码规律也很�Ҏ��定位丢掉的位�|�，不会影响到其他字�W�。在其他双字节编码中�Q�一旦损�׃��个字节，��׃��影响到此字节之后的所有字�W�。从�q�点可以看出UTF-8�~�码非常适合作�ؓ传输�~�码�?

KE 2007-09-13 15:01 发表评论

KE — Thu, 13 Sep 2007 07:00:00 GMT

搞清常用�~�码�Ҏ��是解决字符集编码问题的基础。字�W�集�~�码的识别与转换、分析各�U��ؕ码��生的原因、编�E�操作各�U�编码字�W�串�Q�例如字�W�数计算、截断处理）�{�都需要弄清楚�~�码的特性�?/p>
了解一�U�字�W�集�~�码主要是要了解该编码的�~�码范围�Q�编码对应的字符集（都包含哪些字�W�）�Q�和其他字符集编码之间的关系�{��?/p>
ASCII

ASCII码是7位编码，�~�码范围�?x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符��L��字符。其�?x00-0x20�?x7F�?3个控制字�W��?/p>
只支持ASCII码的�pȝ��会忽略每个字节的最高位�Q�只认�ؓ�?位是有效位。HZ字符�~�码��是早期��Z��在只支持7位ASCII�pȝ��中传输中文而设计的�~�码。早期很多邮件系�l�也只支持ASCII�~�码�Q��ؓ了传输中文邮件必��M��用BASE64或者其他编码方式�?/p>
GB2312

GB2312是基于区位码设计的，��Z��码把�~�码表分�?4个区�Q�每个区对应94个位�Q�每个字�W�的区号和位��L��合�v来就是该汉字的区位码。区位码一�?�?0�q�制数来表示�Q�如1601��p��C?6�?位，对应的字�W�是“�?#8221;。在��Z��码的区号和位号上分别加上0xA0��得��C��GB2312�~�码�?/p>
��Z��码中01-09区是�W�号、数字区�Q?6-87区是汉字区，10-15�?8-94是未定义的空白区。它��收录的汉字分成两��Q�第一�U�是常用汉字 �?755个，�|�于16-55区，按汉语拼韛_��?�W��Ş��序排列�Q�第二��汉字是次常用汉字�?008个，�|�于56-87区，按部�?�W�画��序排列。一�U�汉字是按照拼音排序的，�q�个��可以得到某个拼韛_��一�U�汉字区位中的范��_��很多�Ҏ��汉字可以得到拼音的程序就是根据这个原理编写的�?/p>
GB2312字符集中除常用简体汉字字�W�外�q�包括希腊字母、日文��^假名及片假名字母、俄语西里尔字母�{�字�W�，未收录繁体中文汉字和一些生��d��。可以用�J�体汉字��试某些�pȝ��是不是只支持GB2312�~�码�?/p>
GB2312的编码范围是0xA1A1-0x7E7E�Q�去掉未定义的区域之后可以理解�ؓ实际�~�码范围�?xA1A1-0xF7FE�?/p>
EUC-CN可以理解为GB2312的别名，和GB2312完全相同�?/p>

��Z��码更应该认�ؓ是字�W�集的定义，定义了所收录的字�W�和字符位置�Q�而GB2312及EUC-CN是实际计��机环境中支持这 �U�字�W�集的编码。HZ和ISO-2022-CN是对应区位码字符集的另外两种�~�码�Q�都是用7位编码空间来支持汉字。区位码和GB2312�~�码的关�p�L��点像 Unicode和UTF-8�?/p>

GBK

GBK�~�码是GB2312�~�码的超集，向下完全兼容GB2312�Q�同时GBK收录了Unicode基本多文�U��^面中的所有CJK汉字。同 GB2312一��P��GBK也支持希腊字母、日文假名字母、俄语字母等字符�Q�但不支持韩语中的表韛_��W�（非汉字字�W�）。GBK�q�收录了GB2312不包含的汉字部首�W�号、竖排标点符��L��字符�?/p>
GBK的整体编码范围是�?x8140-0xFEFE�Q�不包括低字节是0×7F的组合。高字节范围�?×81-0xFE�Q�低字节范围�?x40-7E�?x80-0xFE�?/p>
低字节是0x40-0x7E的GBK字符有一定特�D�性，因�ؓ�q�些字符占用了ASCII码的位置�Q�这样会�l�一些系�l�带来麻烦�?/p>

有些�pȝ��中用0x40-0x7E中的字符�Q�如“|”�Q�做�Ҏ��W�号�Q�在定位�q�些�W�号时又没有判断�q�些�W�号是不是属于某�?GBK字符的低字节�Q�这样就会造成错误判断。在支持GB2312的环境下��׃��存在�q�个问题。需要注意的是支持GBK的环境中��于0x80的某个字节未必就是ASCII�W�号�Q�另外就是最好选用��于0×40的ASCII�W�号做一些特�D�符��P��q�样��可以快速定位，且不用担心是某个汉字的另一半。Big5�~�码中也存在相应问题�?/p>

CP936和GBK的有些许差别�Q�绝大多数情况下可以把CP936当作GBK的别名�?/p>
GB18030

GB18030�~�码向下兼容GBK和GB2312�Q�兼容的含义是不仅字�W�兼容，而且相同字符的编码也相同。GB18030收录了所有Unicode3.1中的字符�Q�包括中国少数民族字�W�，GBK不支持的韩文字符�{�等�Q�也可以说是世界大多民族的文字符号都被收录在内�?/p>
GBK和GB2312都是双字节等宽编码，如果��上和ASCII兼容所支持的单字节�Q�也可以理解为是单字节和双字节�؜合的变长�~�码。GB18030�~�码是变长编码，有单字节、双字节和四字节三种方式�?/p>
GB18030的单字节�~�码范围�?x00-0x7F�Q�完全等同与ASCII�Q�双字节�~�码的范围和GBK相同�Q�高字节�?x81-0xFE�Q�低字节的编码范围是0x40-0x7E�?x80-FE�Q�四字节�~�码中第一、三字节的编码范围是0x81-0xFE�Q�二、四字节�?x30-0x39�?/p>

Windows中CP936代码��?x80来表�C�欧元符��P��而在GB18030�~�码中没有��?x80�~�码位，用其他位�|�来表示�Ƨ元�W�号。这可以理解为是GB18030向下兼容性上的一点小问题�Q�也可以理解�?x80是CP936对GBK的扩展，而GB18030只是和GBK兼容良好�?/p>

KE 2007-09-13 15:00 发表评论

	对编码的误解
误解一	在将“字节�?#8221;转化�?#8220;UNICODE 字符�?#8221;�Ӟ��比如在读取文本文件时�Q�或者通过�\|�络传输文本�Ӟ��Ҏ��?#8220;字节�?#8221;��单地作�ؓ单字节字�W�串�Q�采用每“一个字�?#8221;��是“一个字�W?#8221;的方法进行�{化�?br /> 而实际上�Q�在非英文的环境中，应该��?#8220;字节�?#8221;作�ؓ ANSI 字符�Ԍ��采用适当的编码来得到 UNICODE 字符�Ԍ��有可�?#8220;多个字节”才能得到“一个字�W?#8221;�?br /> 通常�Q�一直在英文环境下做开发的�E�序员们�Q�容易有�q�种误解�?/td>
误解�?/td>	�?DOS�Q�Windows 98 �{�非 UNICODE 环境下，字符串都是以 ANSI �~�码的字节�Ş式存在的。这�U�以字节形式存在的字�W�串�Q�必��ȝ��道是哪种�~�码才能被正��地使用。这使我们�Ş成了一个惯性思维�Q?#8220;字符串的�~�码”�?br /> �?UNICODE 被支持后�Q�Java 中的 String 是以字符�?#8220;序号”来存储的�Q�不是以“某种�~�码的字�?#8221;来存储的�Q�因此已�l�不存在“字符串的�~�码”�q�个概念了。只有在“字符�?#8221;�?#8220;字节�?#8221;转化�Ӟ��或者，��一�?#8220;字节�?#8221;当成一�?ANSI 字符串时�Q�才有编码的概念�?br /> 不少的�h都有�q�个误解�?/td>

2D	4E	87	65	31	00	32	00	33	00	00	00	← �?x86 CPU 中，低字节在�?/font>

�?/td>		�?/td>		1		2		3		\0

	概念描述	举例
字符	��Z��使用的记��P��抽象意义上的一个符受��?/td>	'1', '�?, 'a', '$', '�K?, ……
字节	计算��Z��存储数据的单元，一�?位的二进制数�Q�是一个很具体的存储空间�?/td>	0x01, 0x45, 0xFA, ……
ANSI 字符�?/td>	在内存中�Q�如�?#8220;字符”是以 ANSI �~�码形式存在的，一个字�W�可能��用一个字节或多个字节来表�C�，那么我们�U�这�U�字�W�串�?ANSI 字符�?/strong>或�?strong>多字节字�W�串�?/td>	"中文123" �Q�占7字节�Q?/span>
UNICODE 字符�?/td>	在内存中�Q�如�?#8220;字符”是以�?UNICODE 中的序号存在的，那么我们�U�这�U�字�W�串�?UNICODE 字符�?/strong>或�?strong>宽字节字�W�串�?/td>	L"中文123" �Q�占10字节�Q?/span>

分类	�~�码标准	说明
单字节字�W�编�?/td>	ISO-8859-1	最��单的�~�码规则�Q�每一个字节直接作��Z��?UNICODE 字符。比如，[0xD6, 0xD0] �q�两个字节，通过 iso-8859-1 转化为字�W�串�Ӟ��直接得�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�即 "ÖÐ"�?br /> 反之�Q�将 UNICODE 字符串通过 iso-8859-1 转化为字节串�Ӟ��只能正常转化 0~255 范围的字�W��?/td>
ANSI �~�码	GB2312, BIG5, Shift_JIS, ISO-8859-2 ……	�?UNICODE 字符串通过 ANSI �~�码转化�?#8220;字节�?#8221;�Ӟ��Ҏ��各自�~�码的规定，一�?UNICODE 字符可能转化成一个字节或多个字节�?br /> 反之�Q�将字节串�{化成字符串时�Q�也可能多个字节转化成一个字�W�。比如，[0xD6, 0xD0] �q�两个字节，通过 GB2312 转化为字�W�串�Ӟ��得�?[0x4E2D] 一个字�W�，�?'�? 字�?br /> “ANSI �~�码”的特点： 1. �q�些“ANSI �~�码标准”都只能处理各自语�a�范围之内�?UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间的关�p�L��Zؓ规定的�?/td>
UNICODE �~�码	UTF-8, UTF-16, UnicodeBig ……	�?#8220;ANSI �~�码”�c�M��的，把字�W�串通过 UNICODE �~�码转化�?#8220;字节�?#8221;�Ӟ��一�?UNICODE 字符可能转化成一个字节或多个字节�?br /> �?#8220;ANSI �~�码”不同的是�Q?br /> 1. �q�些“UNICODE �~�码”能够处理所有的 UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间是可以通过计算得到的�?/td>

�c�d��或操�?/strong>	C++	Java
字符	wchar_t	char
字节	char	byte
ANSI 字符�?/td>	char[]	byte[]
UNICODE 字符�?/td>	wchar_t[]	String
字节�?#8594;字符�?/td>	mbstowcs(), MultiByteToWideChar()	string = new String(bytes, "encoding")
字符�?#8594;字节�?/td>	wcstombs(), WideCharToMultiByte()	bytes = string.getBytes("encoding")

UCS-2	UTF-8
U+0000 - U+007F	0xxxxxxx
U+0080 - U+07FF	110xxxxx 10xxxxxx
U+0800 - U+FFFF	1110xxxx 10xxxxxx 10xxxxxx

国产日韩视频一区二区三区,久久这里有精品15一区二区三区,欧美日韩第一

4. 几种错误理解的纠�?/h4>

误解�Q?#8220;ISO-8859-1 是国际编码？”

误解�Q?#8220;Java 中，怎样知道某个字符串的内码�Q?#8221;

字符�Q�字节和�~�码

字符�Q�字节和�~�码

引言

1. �~�码问题的由来，相关概念的理�?/h4>

1.1 字符与编码的发展

1.3 字符集与�~�码

2. 字符与编码在�E�序中的实现

3. 几种误解�Q�以及�ؕ码��生的原因和解军_���?/h4>

4. 几种错误理解的纠�?/h4>

误解�Q?#8220;ISO-8859-1 是国际编码？”

误解�Q?#8220;Java 中，怎样知道某个字符串的内码�Q?#8221;

Tomcat中文��q��问题原因和解��x���?

�~�码基本知识

常用字符集编码的概要�Ҏ��（二）

3. 几种误解�Q�以及�ؕ码��生的原因和解军_��?/h4>

Tomcat中文��q��问题原因和解��x��?