午夜在线观看91,99精品在免费线中文字幕网站一区,久久久久电影

字符�Q�字节和�~�码

00 — Wed, 26 Apr 2006 05:08:00 GMT

转蝲�?a >http://www.regexlab.com/zh/encoding.htm

字符�Q�字节和�~�码

[原创文章�Q��{载请保留或注明出处：http://www.regexlab.com/zh/encoding.htm]

�U�别�Q�初�U?/p>

摘要�Q�本文介�l�了字符与编码的发展�q�程�Q�相��x��늚�正确理解。�D例说明了一些实际应用中�Q�编码的实现�Ҏ��。然后，本文讲述了通常对字�W�与�~�码的几�U�误解，�׃��q�些误解而导致�ؕ码��生的原因�Q�以及消除�ؕ码的办法。本文的内容�늛�了“中文问题”，“�ؕ码问题”�?/p>

引言

“字�W�与�~�码”是一个被�l�常讨论的话题。即使这��P��时常出现的�ؕ码仍然困扰着大家。虽然我们有很多的办法可以用来消除�ؕ码，但我们�ƈ不一定理解这些办法的内在原理。而有的�ؕ码��生的原因�Q�实际上�׃��底层代码本��n有问题所��D��的。因此，不仅是初学者会对字�W�编码感到模�p�，有的底层开发�h员同样对字符�~�码�~�Z��准确的理解�?/p>

回页�?/a>

1. �~�码问题的由来，相关概念的理�?/h4>

1.1 字符与编码的发展

从计��机对多国语�a�的支持角度看�Q�大致可以分��Z��个阶�D�：

	�pȝ��内码	说明	�pȝ��
阶段一	ASCII	计算机刚开始只支持��p��Q�其它语�a�不能够在计算��Z��存储和显�C��?/td>	英文 DOS
阶段�?/td>	ANSI�~�码 �Q�本地化�Q?/td>	��Z��计算机支持更多语�a��Q�通常使用 0x80~0xFF 范围�?2 个字节来表示 1 个字�W�。比如：汉字 '�? 在中文操作系�l�中�Q��?[0xD6,0xD0] �q�两个字节存储�?br /> 不同的国家和地区制定了不同的标准�Q�由此��生了 GB2312, BIG5, JIS �{�各自的�~�码标准。这些��?2 个字节来代表一个字�W�的各种汉字延�׾~�码方式�Q�称�?b> ANSI �~�码。在��体中文系�l�下�Q�ANSI �~�码代表 GB2312 �~�码�Q�在日文操作�pȝ��下，ANSI �~�码代表 JIS �~�码�?br /> 不同 ANSI �~�码之间互不兼容�Q�当信息在国际间交流�Ӟ��无法��属于两�U�语�a�的文字，存储在同一�D?b> ANSI �~�码的文本中�?/td>	中文 DOS�Q�中�?Windows 95/98�Q�日�?Windows 95/98
阶段�?/td>	UNICODE �Q�国际化�Q?/td>	��Z��使国际间信息交流更加方便�Q�国际组�l�制定了 UNICODE 字符�?/b>�Q��ؓ各种语言中的每一个字�W�设定了�l�一�q�且唯一的数字编��P��以满��语言、跨�q�_��q�行文本转换、处理的要求�?/td>	Windows NT/2000/XP�Q�Linux�Q�Java

字符串在内存中的存放�Ҏ��Q?/p>

�?ASCII 阶段�Q?b>单字节字�W�串使用一个字节存放一个字�W�（SBCS�Q�。比如，"Bob123" 在内存中为：

42	6F	62	31	32	33	00

B	o	b	1	2	3	\0

在��?ANSI �~�码支持多种语言阶段�Q�每个字�W��用一个字节或多个字节来表�C�（MBCS�Q�，因此�Q�这�U�方式存攄��字符也被�U�C��多字节字�W?/b>。比如，"中文123" 在中�?Windows 95 内存中�ؓ7个字节，每个汉字�?个字节，每个英文和数字字�W�占1个字节：

D6	D0	CE	C4	31	32	33	00

�?/td>		�?/td>		1	2	3	\0

�?UNICODE 被采用之后，计算机存攑֭��W�串�Ӟ��改�ؓ存放每个字符�?UNICODE 字符集中的序受��目前计��机一般��?2 个字节（16 位）来存放一个序��P��DBCS�Q�，因此�Q�这�U�方式存攄��字符也被�U�C��宽字节字�W?/b>。比如，字符�?"中文123" �?Windows 2000 下，内存中实际存攄��?5 个序��P��

2D	4E	87	65	31	00	32	00	33	00	00	00	�?�?x86 CPU 中，低字节在�?/font>

�?/td>		�?/td>		1		2		3		\0

一共占 10 个字节�?/p>

回页�?/a>

1.2 字符�Q�字节，字符�?/h5>
理解�~�码的关键，是要把字�W�的概念和字节的概念理解准确。这两个概念�Ҏ��h��Q�我们在此做一下区分：
　概念描述举例
字符 ��Z��使用的记��P��抽象意义上的一个符受��?/td> '1', '�?, 'a', '$', '�K?, …�?/td>
字节计算��Z��存储数据的单元，一�?位的二进制数�Q�是一个很具体的存储空间�?/td> 0x01, 0x45, 0xFA, …�?/td>
ANSI
字符�?/td> 在内存中�Q�如果“字�W�”是�?ANSI �~�码形式存在的，一个字�W�可能��用一个字节或多个字节来表�C�，那么我们�U�这�U�字�W�串�?ANSI 字符�?/b>或�?b>多字节字�W�串�?/td> "中文123"
�Q�占7字节�Q?/font>
UNICODE
字符�?/td> 在内存中�Q�如果“字�W�”是以在 UNICODE 中的序号存在的，那么我们�U�这�U�字�W�串�?UNICODE 字符�?/b>或�?b>宽字节字�W�串�?/td> L"中文123"
�Q�占10字节�Q?/font>
�׃��不同 ANSI �~�码所规定的标准是不相同的�Q�因此，对于一个给定的多字节字�W�串�Q�我们必��ȝ��道它采用的是哪一�U�编码规则，才能够知道它包含了哪些“字�W�”。而对�?UNICODE 字符�?/b>来说�Q�不��在什么环境下�Q�它所代表的“字�W�”内�Ҏ��L��不变的�?/p>
回页�?/a>
1.3 字符集与�~�码
各个国家和地区所制定的不�?ANSI �~�码标准中，都只规定了各自语�a�所需的“字�W�”。比如：汉字标准�Q�GB2312�Q�中没有规定韩国语字�W�怎样存储。这�?ANSI �~�码标准所规定的内容包含两层含义：
使用哪些字符。也��是说哪些汉字，字母和符号会被收入标准中。所包含“字�W�”的集合��叫做�?b>字符�?/b>”�?
规定每个“字�W�”分别用一个字节还是多个字节存储，用哪些字节来存储�Q�这个规定就叫做�?b>�~�码”�?
各个国家和地区在制定�~�码标准的时候，“字�W�的集合”和“编码”一般都是同时制定的。因此，�q�_��我们所说的“字�W�集”，比如�Q�GB2312, GBK, JIS �{�，除了有“字�W�的集合”这层含义外�Q�同时也包含了“编码”的含义�?/p>
�?b>UNICODE 字符�?/b>”包含了各种语言中��用到的所有“字�W�”。用来给 UNICODE 字符集编码的标准有很多种�Q�比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig �{��?/p>
回页�?/a>
2. 字符与编码在�E�序中的实现
2.1 �E�序中的字符与字�?/h5>
�?C++ �?Java 中，用来代表“字�W�”和“字节”的数据�c�d��Q�以及进行编码的�Ҏ��Q?/p>
�c�d��或操�?/b> C++ Java
字符 wchar_t char^*
字节 char byte
ANSI 字符�?/td> char[] byte[]
UNICODE 字符�?/td> wchar_t[] String
字节东y��字符�?/td> mbstowcs(), MultiByteToWideChar() ^* string = new String(bytes, "encoding")
字符东y��字节�?/td> wcstombs(), WideCharToMultiByte() bytes = string.getBytes("encoding")
以上需要注意几点：
Java 中的 char 代表一个“UNICODE 字符�Q�宽字节字符�Q�”，�?C++ 中的 char 代表一个字节�?
MultiByteToWideChar() �?WideCharToMultiByte() �?Windows API 函数�?
回页�?/a>
2.2 C++ 中相兛_��现方�?/h5>
声明一�D�字�W�串帔R��Q?/p>
// ANSI 字符�Ԍ��内容长度 7 字节
char sz[20] = "中文123";

// UNICODE 字符�Ԍ��内容长度 5 �?wchar_t�Q?0 字节�Q?/span>
wchar_t wsz[20] = L"\x4E2D\x6587\x0031\x0032\x0033";
UNICODE 字符串的 I/O 操作�Q�字�W�与字节的�{换操作：
// �q�行时设定当�?ANSI �~�码�Q�VC 格式
setlocale(LC_ALL, ".936");

// GCC 中格�?/span>
setlocale(LC_ALL, "zh_CN.GBK");

// Visual C++ 中��用小�?%s�Q�按�?setlocale 指定�~�码输出到文�?br />// GCC 中��用大�?%S
fwprintf(fp, L"%s\n", wsz);

// �?UNICODE 字符串按�?setlocale 指定的编码�{换成字节
wcstombs(sz, wsz, 20);
// 把字节串按照 setlocale 指定的编码�{换成 UNICODE 字符�?br />mbstowcs(wsz, sz, 20);
�?Visual C++ 中，UNICODE 字符串常量有更简单的表示�Ҏ��。如果源�E�序的编码与当前默认 ANSI �~�码不符�Q�则需要��?#pragma setlocale�Q�告诉编译器源程序��用的�~�码�Q?/p>
// 如果源程序的�~�码与当前默�?ANSI �~�码不一��_��
// 则需要此行，�~�译时用来指明当前源�E�序使用的编�?/font>
#pragma setlocale(".936")

// UNICODE 字符串常量，内容长度 10 字节
wchar_t wsz[20] = L"中文123";
以上需要注�?#pragma setlocale �?setlocale(LC_ALL, "") 的作用是不同的，#pragma setlocale 在编译时起作用，setlocale() 在运行时起作用�?/p>
回页�?/a>
2.3 Java 中相兛_��现方�?/h5>
字符串类 String 中的内容�?UNICODE 字符�Ԍ��
// Java 代码�Q�直接写中文
String string = "中文123";

// 得到长度�?5�Q�因为是 5 个字�W?/span>
System.out.println(string.length());
字符�?I/O 操作�Q�字�W�与字节转换操作。在 Java �?java.io.* 中，以“Stream”结��c�M��般是用来操作“字节串”的�c�，以“Reader”，“Writer”结��c�M��般是用来操作“字�W�串”的�c�R�?/p>
// 字符串与字节串间�怺�转化

// 按照 GB2312 得到字节�Q�得到多字节字符�Ԍ��
byte [] bytes = string.getBytes("GB2312");

// 从字节按�?GB2312 得到 UNICODE 字符�?/span>
string = newString(bytes, "GB2312");

// 要将 String 按照某种�~�码写入文本文�g�Q�有两种�Ҏ��Q?br />
// �W�一�U�办法：�?Stream �c�d��入已�l�按照指定编码�{化好的字节串
OutputStream os = new FileOutputStream("1.txt");
os.write(bytes);
os.close();

// �W�二�U�办法：构造指定编码的 Writer 来写入字�W�串
Writer ow = new OutputStreamWriter(new FileOutputStream("2.txt"), "GB2312");
ow.write(string);
ow.close();

/* 最后得到的 1.txt �?2.txt 都是 7 个字�?*/
如果 java 的源�E�序�~�码与当前默�?ANSI �~�码不符�Q�则在编译的时候，需要指明一下源�E�序的编码。比如：
E:\>javac -encoding BIG5 Hello.java
以上需要注意区分源�E�序的编码与 I/O 操作的编码，前者是在编译时起作用，后者是在运行时起作用�?/p>
回页�?/a>
3. 几种误解�Q�以及�ؕ码��生的原因和解军_��?/h4>
3.1 �Ҏ��产生的误�?/h5>
　对编码的误解
误解一在将“字节串”�{化成“UNICODE 字符东y��时�Q�比如在��d��文本文�g�Ӟ��或者通过�|�络传输文本�Ӟ��Ҏ��“字节串”简单地作�ؓ单字节字�W�串�Q�采用每“一个字节”就是“一个字�W�”的�Ҏ��q�行转化�?br />
而实际上�Q�在非英文的环境中，应该��“字节串”作�?ANSI 字符�Ԍ��采用适当的编码来得到 UNICODE 字符�Ԍ��有可能“多个字节”才能得到“一个字�W�”�?br />
通常�Q�一直在英文环境下做开发的�E�序员们�Q�容易有�q�种误解�?/td>
误解�?/td> �?DOS�Q�Windows 98 �{�非 UNICODE 环境下，字符串都是以 ANSI �~�码的字节�Ş式存在的。这�U�以字节形式存在的字�W�串�Q�必��ȝ��道是哪种�~�码才能被正��地使用。这使我们�Ş成了一个惯性思维�Q�“字�W�串的编码”�?br />
�?UNICODE 被支持后�Q�Java 中的 String 是以字符的“序号”来存储的，不是以“某�U�编码的字节”来存储的，因此已经不存在“字�W�串的编码”这个概念了。只有在“字�W�串”与“字节串”�{化时�Q�或者，��一个“字节串”当成一�?ANSI 字符串时�Q�才有编码的概念�?br />
不少的�h都有�q�个误解�?/td>
�W�一�U�误解，往往是导致�ؕ码��生的原因。第二种误解�Q�往往��D��本来�Ҏ��U�正的�ؕ码问题变得更复杂�?/p>
回页�?/a>
3.2 常用的编码简�?/h5>
��单介�l�一下常用的�~�码规则�Q��ؓ后边的章节做一个准备。在�q�里�Q�我们根据编码规则的特点�Q�把所有的�~�码分成三类�Q?/p>
分类 �~�码标准说明
单字节字�W�编�?/td> ISO-8859-1 最��单的�~�码规则�Q�每一个字节直接作��Z��?UNICODE 字符。比如，[0xD6, 0xD0] �q�两个字节，通过 iso-8859-1 转化为字�W�串�Ӟ��直接得�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�即 "ÖÐ"�?br />
反之�Q�将 UNICODE 字符串通过 iso-8859-1 转化为字节串�Ӟ��只能正常转化 0~255 范围的字�W��?/td>
ANSI �~�码 GB2312,
BIG5,
Shift_JIS,
ISO-8859-2 …�?/td> �?UNICODE 字符串通过 ANSI �~�码转化为“字节串”时�Q�根据各自编码的规定�Q�一�?UNICODE 字符可能转化成一个字节或多个字节�?br />
反之�Q�将字节串�{化成字符串时�Q�也可能多个字节转化成一个字�W�。比如，[0xD6, 0xD0] �q�两个字节，通过 GB2312 转化为字�W�串�Ӟ��得�?[0x4E2D] 一个字�W�，�?'�? 字�?br />
“ANSI �~�码”的特点�Q?br />1. �q�些“ANSI �~�码标准”都只能处理各自语言范围之内�?UNICODE 字符�?br />2. “UNICODE 字符”与“�{换出来的字节”之间的关系是�h��定的�?/td>
UNICODE �~�码 UTF-8,
UTF-16, UnicodeBig …�?/td> 与“ANSI �~�码”类似的�Q�把字符串通过 UNICODE �~�码转化成“字节串”时�Q�一�?UNICODE 字符可能转化成一个字节或多个字节�?br />
与“ANSI �~�码”不同的是：
1. �q�些“UNICODE �~�码”能够处理所有的 UNICODE 字符�?br />2. “UNICODE 字符”与“�{换出来的字节”之间是可以通过计算得到的�?/td>
在这里，我们可以看到�Q�前面所讲的“误解一”，即采用每“一个字节”就是“一个字�W�”的转化�Ҏ��Q�实际上也就�{�同于采�?iso-8859-1 �q�行转化。因此，我们常常使用 bytes = string.getBytes("iso-8859-1") 来进行逆向操作�Q�得到原始的“字节串”。然后再使用正确�?ANSI �~�码�Q�比�?string = new String(bytes, "GB2312")�Q�来得到正确的“UNICODE 字符东y��?/p>
回页�?/a>
3.3 �?UNICODE �E�序在不同语�a�环境间移植时的�ؕ�?/h5>
�?UNICODE �E�序中的字符�Ԍ��都是以某�U?ANSI �~�码形式存在的。如果程序运行时的语�a�环境与开发时的语�a�环境不同�Q�将会导�?ANSI 字符串的昄��p�|�?/p>
比如�Q�在日文环境下开发的�?UNICODE 的日文程序界面，拿到中文环境下运行时�Q�界面上��显�C�Zؕ码。如果这个日文程序界面改为采�?UNICODE 来记录字�W�串�Q�那么当在中文环境下�q�行�Ӟ��界面上将可以昄��正常的日文�?/p>
�׃��客观原因�Q�有时候我们必��d��中文操作�pȝ��下运行非 UNICODE 的日文��Y�Ӟ��q�时我们可以采用一些工��P��比如�Q�南极星�Q�AppLocale �{�，暂时的模拟不同的语言环境�?/p>
回页�?/a>
3.4 �|�页提交字符�?/h5>
当页面中的表单提交字�W�串�Ӟ��首先把字�W�串按照当前��面的编码，转化成字节串。然后再��每个字节�{化成 "%XX" 的格式提交到 Web 服务器。比如，一个编码�ؓ GB2312 的页面，提交 "�? �q�个字符串时�Q�提交给服务器的内容�?"%D6%D0"�?/p>
在服务器端，Web 服务器把收到�?"%D6%D0" 转化�?[0xD6, 0xD0] 两个字节�Q�然后再�Ҏ�� GB2312 �~�码规则得到 "�? 字�?/p>
�?Tomcat 服务器中�Q�request.getParameter() 得到��q��Ӟ��常常是因为前面提到的“误解一”造成的。默认情况下�Q�当提交 "%D6%D0" �l?Tomcat 服务器时�Q�request.getParameter() ��返�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�而不是返回一�?"�? 字符。因此，我们需要��?bytes = string.getBytes("iso-8859-1") 得到原始的字节串�Q�再�?string = new String(bytes, "GB2312") 重新得到正确的字�W�串 "�?�?/p>
回页�?/a>
3.5 从数据库��d��字符�?/h5>
通过数据库客��L��Q�比�?ODBC �?JDBC�Q�从数据库服务器中读取字�W�串�Ӟ��客户端需要从服务器获知所使用�?ANSI �~�码。当数据库服务器发送字节流�l�客��L��Ӟ��客户端负责将字节��按照正��的�~�码转化�?UNICODE 字符丌Ӏ?/p>
如果从数据库��d��字符串时得到��q��Q�而数据库中存攄��数据又是正确的，那么往往�q�是因�ؓ前面提到的“误解一”造成的。解决的办法�q�是通过 string = new String( string.getBytes("iso-8859-1"), "GB2312") 的方法，重新得到原始的字节串�Q�再重新使用正确的编码�{化成字符丌Ӏ?/p>
回页�?/a>
3.6 电子邮�g中的字符�?/h5>
当一�D?Text 或�?HTML 通过电子邮�g传送时�Q�发送的内容首先通过一�U�指定的字符�~�码转化成“字节串”，然后再把“字节串”通过一�U�指定的传输�~�码�Q�Content-Transfer-Encoding�Q�进行�{化得到另一东y��字节串”。比如，打开一��电子邮件源代码�Q�可以看到类似的内容�Q?/p>
Content-Type: text/plain;
charset="gb2312"
Content-Transfer-Encoding: base64

sbG+qcrQuqO17cf4yee74bGjz9W7+b3wudzA7dbQ0MQNCg0KvPKzxqO6uqO17cnnsaPW0NDEDQoNCg==
最常用�?Content-Transfer-Encoding �?Base64 �?Quoted-Printable 两种。在对二�q�制文�g或者中文文本进行�{化时�Q�Base64 得到的“字节串”比 Quoted-Printable 更短。在对英文文本进行�{化时�Q�Quoted-Printable 得到的“字节串”比 Base64 更短�?/p>
邮�g的标题，用了一�U�更��短的格式来标注“字�W�编码”和“传输编码”。比如，标题内容�?"�?�Q�则在邮件源代码中表�C�Zؓ�Q?/p>
// 正确的标题格�?/span>
Subject: =?GB2312?B?1tA=?=
其中�Q?/p>
�W�一个�??”与�?”中间的部分指定了字�W�编码，在这个例子中指定的是 GB2312�?
�?”与�?”中间的“B”代�?Base64。如果是“Q”则代表 Quoted-Printable�?
最后�?”与�?=”之间的部分�Q�就是经�q?GB2312 转化成字节串�Q�再�l�过 Base64 转化后的标题内容�?
如果“传输编码”改�?Quoted-Printable�Q�同��P��如果标题内容�?"�?�Q?/p>
// 正确的标题格�?/span>
Subject: =?GB2312?Q?=D6=D0?=
如果阅读邮�g时出��Cؕ码，一般是因�ؓ“字�W�编码”或“传输编码”指定有误，或者是没有指定。比如，有的发邮件组件在发送邮件时�Q�标�?"�?�Q?/p>
// 错误的标题格�?/span>
Subject: =?ISO-8859-1?Q?=D6=D0?=
�q�样的表�C�，实际上是明确指明了标题�ؓ [0x00D6, 0x00D0]�Q�即 "ÖÐ"�Q�而不�?"�?�?/p>
回页�?/a>
4. 几种错误理解的纠�?/h4>
误解�Q�“ISO-8859-1 是国际编码？�?/h5>
非也。iso-8859-1 只是单字节字�W�集中最��单的一�U�，也就是“字节编号”与“UNICODE 字符�~�号”一致的那种�~�码规则。当我们要把一个“字节串”�{化成“字�W�串”，而又不知道它是哪一�U?ANSI �~�码�Ӟ��先暂时地把“每一个字节”作为“一个字�W�”进行�{化，不会造成信息丢失。然后再使用 bytes = string.getBytes("iso-8859-1") 的方法可恢复到原始的字节丌Ӏ?/p>
误解�Q�“Java 中，怎样知道某个字符串的内码�Q��?/h5>
Java 中，字符串类 java.lang.String 处理的是 UNICODE 字符�Ԍ��不是 ANSI 字符丌Ӏ�我们只需要把字符串作为“抽象的�W�号的串”来看待。因此不存在字符串的内码的问题�?/p>

00 2006-04-26 13:08 发表评论

深入理解abstract class和interface

00 — Thu, 06 Apr 2006 04:30:00 GMT

转蝲�?http://bbs.java.ccidnet.com/htm_data/2/0603/1080.html

abstract class和interface是Java语言中对于抽象类定义�q�行支持的两�U�机�Ӟ��正是�׃��q�两�U�机制的存在�Q�才赋予了Java强大的面向对象能力。abstract class和interface之间在对于抽象类定义的支持方面具有很大的�怼�性，甚至可以�怺�替换�Q�因此很多开发者在�q�行抽象�c�d��义时对于abstract class和interface的选择昑־�比较随意。其实，两者之间还是有很大的区别的�Q�对于它们的选择甚至反映出对于问题领域本质的理解、对于设计意囄��理解是否正确、合理。本文将对它们之间的区别�q�行一番剖析，试图�l�开发者提供一个在二者之间进行选择的依据�?

理解抽象�c?

abstract class和interface在Java语言中都是用来进行抽象类�Q�本文中的抽象类�q��从abstract class��译而来�Q�它表示的是一个抽象体�Q�而abstract class为Java语言中用于定义抽象类的一�U�方法，误��者注意区分）定义的，那么什么是抽象�c�，使用抽象�c�能为我们带来什么好处呢�Q?

在面向对象的概念中，我们知道所有的对象都是通过�c�L��描绘的，但是反过来却不是�q�样。�ƈ不是所有的�c�都是用来描�l�对象的�Q�如果一个类中没有包含��够的信息来描�l�一个具体的对象�Q�这��L��c�d��是抽象类。抽象类往往用来表征我们在对问题领域�q�行分析、设计中得出的抽象概念，是对一�p�d��看上��M��同，但是本质上相同的具体概念的抽象。比如：如果我们�q�行一个图形编辑��Y件的开发，��׃��发现问题领域存在着圆、三角�Ş�q�样一些具体概念，它们是不同的�Q�但是它们又都属于�Ş状这样一个概念，形状�q�个概念在问题领域是不存在的�Q�它��是一个抽象概��c��正是因为抽象的概念在问题领域没有对应的具体概念�Q�所以用以表征抽象概�늚�抽象�c�L��不能够实例化的�?

在面向对象领域，抽象�c�M��要用来进行类型隐藏。我们可以构造出一个固定的一�l�行为的抽象描述�Q�但是这�l�行为却能够有�Q意个可能的具体实现方式。这个抽象描�q�就是抽象类�Q�而这一�l��Q意个可能的具体实现则表现为所有可能的�z��c�R��模块可以操作一个抽象体。由于模块依赖于一个固定的抽象体，因此它可以是不允�怿�改的�Q�同�Ӟ��通过从这个抽象体�z��Q�也可扩展此模块的行为功能。熟悉OCP的读者一定知道，��Z��能够实现面向对象设计的一个最核心的原则OCP(Open-Closed Principle)�Q�抽象类是其中的关键所在�?

从语法定义层面看abstract class和interface

在语法层面，Java语言对于abstract class和interface�l�出了不同的定义方式�Q�下面以定义一个名为Demo的抽象类��Z��来说明这�U�不同�?
使用abstract class的方式定义Demo抽象�cȝ��方式如下�Q?

abstract class Demo {
abstract void method1();
abstract void method2();
�?
}

使用interface的方式定义Demo抽象�cȝ��方式如下�Q?

interface Demo {
void method1();
void method2();
�?br />}

在abstract class方式中，Demo可以有自��q��数据成员�Q�也可以有非abstarct的成员方法，而在interface方式的实��C��Q�Demo只能够有静态的不能被修改的数据成员�Q�也��是必须是static final的，不过在interface中一般不定义数据成员�Q�，所有的成员�Ҏ��都是abstract的。从某种意义上说�Q�interface是一�U�特�D��Ş式的abstract class�?

从编�E�的角度来看�Q�abstract class和interface都可以用来实�?design by contract"的思想。但是在具体的��用上面还是有一些区别的�?

首先�Q�abstract class在Java语言中表�C�的是一�U��承关�p�，一个类只能使用一�ơ��承关�p�R��但是，一个类却可以实现多个interface。也许，�q�是Java语言的设计者在考虑Java对于多重�l�承的支持方面的一�U�折中考虑吧�?

其次�Q�在abstract class的定义中�Q�我们可以赋予方法的默认行�ؓ。但是在interface的定义中�Q�方法却不能拥有默认行�ؓ�Q��ؓ了绕�q�这个限�Ӟ��必须使用委托�Q�但是这�?增加一些复杂性，有时会造成很大的麻烦�?

在抽象类中不能定义默认行��存在另一个比较严重的问题�Q�那��是可能会造成�l�护上的�ȝ��。因为如果后来想修改�cȝ��界面�Q�一般通过abstract class或者interface来表�C�）以适应新的情况�Q�比如，��d��新的�Ҏ��或者给已用的方法中��d��新的参数�Q�时�Q�就会非常的�ȝ��Q�可能要��p��很多的时��_��对于�z��c�d��多的情况�Q�尤为如此）。但是如果界面是通过abstract class来实现的�Q�那么可能就只需要修改定义在abstract class中的默认行�ؓ��可以了�?

同样�Q�如果不能在抽象�c�M��定义默认行�ؓ�Q�就会导致同��L��Ҏ��实现出现在该抽象�cȝ��每一个派生类中，�q�反�?one rule�Q�one place"原则�Q�造成代码重复�Q�同样不利于以后的维护。因此，在abstract class和interface间进行选择时要非常的小心�?

从设计理念层面看abstract class和interface

上面主要从语法定义和�~�程的角度论�q�C��abstract class和interface的区别，�q�些层面的区别是比较低层�ơ的、非本质的。本��节��从另一个层面：abstract class和interface所反映出的设计理念�Q�来分析一下二者的区别。作者认为，从这个层面进行分析才能理解二者概�늚�本质所在�?

前面已经提到�q�，abstarct class在Java语言中体��C��一�U��承关�p�，要想使得�l�承关系合理�Q�父�c�d��z��c�M��间必��d��?is a"关系�Q�即父类和派生类在概忉|��质上应该是相同的�Q�参考文献�?〕中有关�?is a"关系的大��幅深入的论�q�ͼ�有兴��的读者可以参考）。对于interface 来说则不�Ӟ��q�不要求interface的实现者和interface定义在概忉|��质上是一致的�Q�仅仅是实现了interface定义的契�U�而已。�ؓ了��便于理解�Q�下面将通过一个简单的实例�q�行说明�?

考虑�q�样一个例子，假设在我们的问题领域中有一个关于Door的抽象概念，该Door��h��执行两个动作open和close�Q�此时我们可以通过abstract class或者interface来定义一个表�C��抽象概念的类型，定义方式分别如下所�C�：

使用abstract class方式定义Door�Q?

abstract class Door {
abstract void open();
abstract void close()�Q?
}

使用interface方式定义Door�Q?

interface Door {
void open();
void close();
}

其他具体的Door�c�d��可以extends使用abstract class方式定义的Door或者implements使用interface方式定义的Door。看��h��好像使用abstract class和interface没有大的区别�?

如果现在要求Door�q�要��h��报警的功能。我们该如何设计针对该例子的�cȝ��构呢�Q�在本例中，主要是�ؓ了展�C�abstract class和interface反映在设计理念上的区别，其他斚w��无关的问题都做了��化或者忽略）�Q�下面将�|�列出可能的解决�Ҏ��Q��ƈ从设计理念层面对�q�些不同的方案进行分析�?

解决�Ҏ��一�Q?

��单的在Door的定义中增加一个alarm�Ҏ��Q�如下：

abstract class Door {
abstract void open();
abstract void close()�Q?
abstract void alarm();
}

或�?

interface Door {
void open();
void close();
void alarm();
}

那么��h��报警功能的AlarmDoor的定义方式如下：

class AlarmDoor extends Door {
void open() { �?}
void close() { �?}
void alarm() { �?}
}

或�?

class AlarmDoor implements Door {
void open() { �?}
void close() { �?}
void alarm() { �?}
}

�q�种�Ҏ��q�反了面向对象设计中的一个核心原则ISP�Q�Interface Segregation Priciple�Q�，在Door的定义中把Door概念本��n固有的行为方法和另外一个概�?报警�?的行为方法�؜在了一赗��这样引��L��一个问题是那些仅仅依赖于Door�q�个概念的模块会因�ؓ"报警�?�q�个概念的改变（比如�Q�修改alarm�Ҏ��的参敎ͼ�而改变，反之依然�?

解决�Ҏ��二：

既然open、close和alarm属于两个不同的概念，�Ҏ��ISP原则应该把它们分别定义在代表�q�两个概�늚�抽象�c�M��。定义方式有�Q�这两个概念都��用abstract class方式定义�Q�两个概念都使用interface方式定义�Q�一个概念��用abstract class方式定义�Q�另一个概念��用interface方式定义�?

昄��Q�由于Java语言不支持多重��承，所以两个概念都使用abstract class方式定义是不可行的。后面两�U�方式都是可行的�Q�但是对于它们的选择却反映出对于问题领域中的概念本质的理解、对于设计意囄��反映是否正确、合理。我们一一来分析、说明�?

如果两个概念都��用interface方式来定义，那么��反映出两个问题�Q?、我们可能没有理解清楚问题领域，AlarmDoor在概忉|��质上到底是Door�q�是报警器？2、如果我们对于问题领域的理解没有问题�Q�比如：我们通过对于问题领域的分析发现AlarmDoor在概忉|��质上和Door是一致的�Q�那么我们在实现时就没有能够正确的揭�C�我们的设计意图�Q�因为在�q�两个概�늚�定义上（均��用interface方式定义�Q�反映不��Z��q�含义�?br />
如果我们对于问题领域的理解是�Q�AlarmDoor在概忉|��质上是Door�Q�同时它有具有报警的功能。我们该如何来设计、实现来明确的反映出我们的意思呢�Q�前面已�l�说�q�，abstract class在Java语言中表�C�Z��U��承关�p�，而��承关�p�d��本质上是"is a"关系。所以对于Door�q�个概念�Q�我们应该��用abstarct class方式来定义。另外，AlarmDoor又具有报警功能，说明它又能够完成报警概念中定义的行�ؓ�Q�所以报警概念可以通过interface方式定义。如下所�C�：

abstract class Door {
abstract void open();
abstract void close()�Q?br />}
interface Alarm {
void alarm();
}
class AlarmDoor extends Door implements Alarm {
void open() { �?}
void close() { �?}
void alarm() { �?}
}

�q�种实现方式基本上能够明��的反映出我们对于问题领域的理解�Q�正��的揭示我们的设计意图。其实abstract class表示的是"is a"关系�Q�interface表示的是"like a"关系�Q�大家在选择时可以作��Z��个依据，当然�q�是建立在对问题领域的理解上的，比如�Q�如果我们认为AlarmDoor在概忉|��质上是报警器�Q�同时又��h��Door的功能，那么上述的定义方式就要反�q�来了�?br />
�l�论

abstract class和interface是Java语言中的两种定义抽象�cȝ��方式�Q�它们之间有很大的相似性。但是对于它们的选择却又往往反映出对于问题领域中的概忉|��质的理解、对于设计意囄��反映是否正确、合理，因�ؓ它们表现了概念间的不同的关系�Q�虽焉��能够实现需求的功能�Q�。这其实也是语言的一�U�的惯用法，希望读者朋友能够细�l�体会�?/font>

00 2006-04-06 12:30 发表评论

	概念描述	举例
字符	��Z��使用的记��P��抽象意义上的一个符受��?/td>	'1', '�?, 'a', '$', '�K?, …�?/td>
字节	计算��Z��存储数据的单元，一�?位的二进制数�Q�是一个很具体的存储空间�?/td>	0x01, 0x45, 0xFA, …�?/td>
ANSI 字符�?/td>	在内存中�Q�如果“字�W�”是�?ANSI �~�码形式存在的，一个字�W�可能��用一个字节或多个字节来表�C�，那么我们�U�这�U�字�W�串�?ANSI 字符�?/b>或�?b>多字节字�W�串�?/td>	"中文123" �Q�占7字节�Q?/font>
UNICODE 字符�?/td>	在内存中�Q�如果“字�W�”是以在 UNICODE 中的序号存在的，那么我们�U�这�U�字�W�串�?UNICODE 字符�?/b>或�?b>宽字节字�W�串�?/td>	L"中文123" �Q�占10字节�Q?/font>

�c�d��或操�?/b>	C++	Java
字符	wchar_t	char^*
字节	char	byte
ANSI 字符�?/td>	char[]	byte[]
UNICODE 字符�?/td>	wchar_t[]	String
字节东y��字符�?/td>	mbstowcs(), MultiByteToWideChar() ^*	string = new String(bytes, "encoding")
字符东y��字节�?/td>	wcstombs(), WideCharToMultiByte()	bytes = string.getBytes("encoding")

	对编码的误解
误解一	在将“字节串”�{化成“UNICODE 字符东y��时�Q�比如在��d��文本文�g�Ӟ��或者通过�\|�络传输文本�Ӟ��Ҏ��“字节串”简单地作�ؓ单字节字�W�串�Q�采用每“一个字节”就是“一个字�W�”的�Ҏ��q�行转化�?br /> 而实际上�Q�在非英文的环境中，应该��“字节串”作�?ANSI 字符�Ԍ��采用适当的编码来得到 UNICODE 字符�Ԍ��有可能“多个字节”才能得到“一个字�W�”�?br /> 通常�Q�一直在英文环境下做开发的�E�序员们�Q�容易有�q�种误解�?/td>
误解�?/td>	�?DOS�Q�Windows 98 �{�非 UNICODE 环境下，字符串都是以 ANSI �~�码的字节�Ş式存在的。这�U�以字节形式存在的字�W�串�Q�必��ȝ��道是哪种�~�码才能被正��地使用。这使我们�Ş成了一个惯性思维�Q�“字�W�串的编码”�?br /> �?UNICODE 被支持后�Q�Java 中的 String 是以字符的“序号”来存储的，不是以“某�U�编码的字节”来存储的，因此已经不存在“字�W�串的编码”这个概念了。只有在“字�W�串”与“字节串”�{化时�Q�或者，��一个“字节串”当成一�?ANSI 字符串时�Q�才有编码的概念�?br /> 不少的�h都有�q�个误解�?/td>

分类	�~�码标准	说明
单字节字�W�编�?/td>	ISO-8859-1	最��单的�~�码规则�Q�每一个字节直接作��Z��?UNICODE 字符。比如，[0xD6, 0xD0] �q�两个字节，通过 iso-8859-1 转化为字�W�串�Ӟ��直接得�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�即 "ÖÐ"�?br /> 反之�Q�将 UNICODE 字符串通过 iso-8859-1 转化为字节串�Ӟ��只能正常转化 0~255 范围的字�W��?/td>
ANSI �~�码	GB2312, BIG5, Shift_JIS, ISO-8859-2 …�?/td>	�?UNICODE 字符串通过 ANSI �~�码转化为“字节串”时�Q�根据各自编码的规定�Q�一�?UNICODE 字符可能转化成一个字节或多个字节�?br /> 反之�Q�将字节串�{化成字符串时�Q�也可能多个字节转化成一个字�W�。比如，[0xD6, 0xD0] �q�两个字节，通过 GB2312 转化为字�W�串�Ӟ��得�?[0x4E2D] 一个字�W�，�?'�? 字�?br /> “ANSI �~�码”的特点�Q?br />1. �q�些“ANSI �~�码标准”都只能处理各自语言范围之内�?UNICODE 字符�?br />2. “UNICODE 字符”与“�{换出来的字节”之间的关系是�h��定的�?/td>
UNICODE �~�码	UTF-8, UTF-16, UnicodeBig …�?/td>	与“ANSI �~�码”类似的�Q�把字符串通过 UNICODE �~�码转化成“字节串”时�Q�一�?UNICODE 字符可能转化成一个字节或多个字节�?br /> 与“ANSI �~�码”不同的是： 1. �q�些“UNICODE �~�码”能够处理所有的 UNICODE 字符�?br />2. “UNICODE 字符”与“�{换出来的字节”之间是可以通过计算得到的�?/td>

午夜在线观看91,99精品在免费线中文字幕网站一区,久久久久电影

字符�Q�字节和�~�码

字符�Q�字节和�~�码

引言

1. �~�码问题的由来，相关概念的理�?/h4>

1.1 字符与编码的发展

1.3 字符集与�~�码

2. 字符与编码在�E�序中的实现

3. 几种误解�Q�以及�ؕ码��生的原因和解军_���?/h4>

4. 几种错误理解的纠�?/h4>

深入理解abstract class和interface

3. 几种误解�Q�以及�ؕ码��生的原因和解军_��?/h4>