欧洲毛片在线视频免费观看,日本不卡一二三区,3p在线观看

hilor — Fri, 28 Mar 2008 12:36:00 GMT

在Application�?
System.getProperty("user.dir")

在Servlet�?
ServletContext servletContext = config.getServletContext();
String rootPath = servletContext.getRealPath("/");

在jsp�?
application.getRealPath("")

hilor 2008-03-28 20:36 发表评论

Java�~�码问题详解

hilor — Wed, 20 Feb 2008 08:32:00 GMT

引用�Q?a >http://blog.csdn.net/Mr_IT/archive/2006/10/18/1339656.aspx

>汉字�~�码的相兌��?br /> 汉字是双字节的，要占用两个BYTE的位�|�（�?6位）�Q�分别称为高位和低位�?br /> 中国规定的汉字编码�ؓGB2312�Q�这是强制性的�Q�目前几乎所有的能处理中文的应用�E�序都支持GB2312。GB2312包括了一二��汉字�?区符��P��高位�?xa1�?xfe�Q�低位也是从0xa1�?xfe�Q�其中，汉字的编码范围�ؓ0xb0a1�?xf7fe�?br /> 另外有一�U�编码，叫做GBK�Q�但�q�是一份规范，不是强制的。GBK提供�?0902个汉字，它兼容GB2312�Q�编码范围�ؓ0x8140�?xfefe。GBK中的所有字�W�都可以一一映射到Unicode 2.0�?br /> 中国�q�颁布了另一�U�标准：GB18030-2000�Q�GBK2K�Q�。它收录了藏、蒙�{�少数民族的字型�Q�从�Ҏ��上解决了字位不��的问题。注意：它不再是定长的。其二字节部份与GBK兼容�Q�四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81�?xfe�Q�二字节和第四字节从0x30�?x39�?/p>

2>不同语言直接的�{�?br /> 异种语言之间的�{换是通过Unicode来完成的。假设有两种不同的语�a�A和B�Q��{换的步骤为：先把A转化为Unicode�Q�再把Unicode转化为B�?br /> 举例说明。有GB2312中有一个汉�?#8220;�?#8221;�Q�其�~�码�?#8220;C0EE”�Q�欲转化为ISO8859-1�~�码。步骤�ؓ�Q�先�?#8220;�?#8221;字�{化�ؓUnicode�Q�得�?“674E”�Q�再�?#8220;674E”转化为ISO8859-1字符。当�Ӟ��q�个映射不会成功�Q�因为ISO8859-1中根本就没有�?#8220;674E”对应的字�W�。当映射不成功时�Q�问题就发生了！当从某语�a�向Unicode转化�Ӟ��如果在某语言中没有该字符�Q�得到的��是Unicode的代�?#8220;\uffffd”�Q?#8220;\ u”表示是Unicode�~�码�Q�）。而从Unicode向某语言转化�Ӟ��如果某语�a�没有对应的字�W�，则得到的�?#8220;0x3f”�Q?#8220;?”�Q�。这��是“?”的由来。例如：把字�W�流buf =“0x80 0x40 0xb0 0xa1”�q�行new String(buf, "gb2312")操作�Q�得到的�l�果�?#8220;\ufffd\u554a”�Q�再println出来�Q�得到的�l�果��是“?�?#8221;�Q�因�?#8220;0x80 0x40”是GBK中的字符�Q�在GB2312中没有。再如，把字�W�串String="\u00d6\u00ec\u00e9\u0046\u00bb\ u00f9"�q�行new String (buf.getBytes("GBK"))操作�Q�得到的�l�果�?#8220;3fa8aca8a6463fa8b4”�Q�其中，“\u00d6”�?#8220;GBK”中没有对应的字符�Q�得�?#8220;3f”�Q?#8220;\u00ec”对应着“a8ac”�Q?#8220;\u00e9”对应着“a8a6”�Q?#8220;0046”对应着“46”�Q�因��是ASCII字符�Q�，“\u00bb”没找刎ͼ�得到“3f”�Q�最后，“\u00f9”对应着“a8b4”。把�q�个字符串println一下，得到的结果是“?ìéF? ù”。看到没�Q�这里�ƈ不全是问��P��因�ؓGBK与Unicode映射的内容中除了汉字外还有字�W�，本例��是最好的明证�?/p>

3>Unicode格式
Unicode默认为UTF-16格式�?br /> UTF-8是Unicode压羃版本�Q�对于大多数常用字符�?ASCII�?~127字符)它只使用单字节，而对其它常用字符(特别是朝鲜和汉语会意文字)�Q�它使用�Q�字节。如果写的主要是��p��Q�那么UTF-8可减��文件大��一半左叟�?br /> UTF-8��是�?位�ؓ单元对UCS�q�行�~�码�Q�以字节为编码单元，没有字节序的问题。UTF-16以两个字节�ؓ�~�码单元�Q�在解释一个UTF-16文本前，首先要弄清楚每个�~�码单元的字节序。例�?�?的Unicode�~�码�?94E�Q?�?的Unicode�~�码�?E59。如果我们收到UTF-16字节��?"594E"�Q�那么这�?#8220;�?#8221;�q�是"�?�Q�Unicode规范中推荐的标记字节��序的方法是BOM(即Byte Order Mark)。如果接收者收到FEFF�Q�就表明�q�个字节��是Big-Endian的；如果收到FFFE�Q�就表明�q�个字节��是Little-Endian的�?/p>

3>UTF格式
UTF�Q�是Unicode Text Format的羃写，意�ؓUnicode文本格式。对于UTF�Q�是�q�样定义的：
�?如果Unicode�?6位字�W�的�?位是0�Q�则用一个字节表�C�，�q�个字节的首位是“0”�Q�剩下的7位与原字�W�中的后7位相同，�?#8220;\u0034” �Q?000 0000 0011 0100�Q�，�?#8220;34” (0011 0100)表示�Q�（与源Unicode字符是相同的�Q�；
>7位的Unicode: 0 _ _ _ _ _ _ _
�?如果Unicode�?6位字�W�的�?位是0�Q�则�?个字节表�C�，首字节是“110”开��_��后面�?位与源字�W�中除去�?个零后的最�?位相同；�W�二个字节以“10”开��_��后面�?位与源字�W�中的低6位相同。如“\u025d”�Q?000 0010 0101 1101�Q�，转化后�ؓ“c99d”�Q?100 1001 1001 1101�Q�；
>11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
�?如果不符合上�q�C��个规则，则用三个字节表示。第一个字节以“1110”开��_��后四位�ؓ源字�W�的高四位；�W�二个字节以“10”开��_��后六位�ؓ源字�W�中间的六位�Q�第三个字节�?#8220;10”开��_��后六位�ؓ源字�W�的低六位；�?#8220;\u9da7”�Q?001 1101 1010 0111�Q�，转化�?#8220;e9b6a7”�Q?110 1001 1011 0110 1010 0111�Q�；
>16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
>21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
可以�q�么描述JAVA�E�序中Unicode与UTF的关�p�，虽然不绝对：字符串在内存中运行时�Q�表��CؓUnicode代码�Q�而当要保存到文�g或其它介质中��L��Q�用的是UTF。这个�{化过�E�是由writeUTF和readUTF来完成的�?/p>

4>Java�E�序中的�~�码格式内幕
input(charsetA)-�Q�process(Unicode)-�Q�output(charsetB)
卌��入、处理和输出要经�q?#8220;从charsetA到unicode再到charsetB”的�{化�?/p>

SourceFile(jsp,java)-�Q�class-�Q�output
输入的是jsp和java源文�Ӟ��在处理过�E�中�Q�以Class文�g��体，然后输出�?/p>

　�?JSP从源文�g到Class的过�E��?br /> 在本节中�Q�将阐述JSP文�g的解释和�~�译�q�程�Q��ƈ跟踪其中的中文变化�?br /> 　　1、JSP/Servlet引擎提供的JSP转换工具�Q�jspc�Q�搜索JSP文�g中用�Q?@ page contentType ="text/html; charset=�Q�Jsp-charset�Q?%�Q�中指定的charset。如果在JSP文�g中未指定�Q�Jsp-charset�Q�，则取JVM中的默认讄��file.encoding�Q�一般情况下�Q�这个值是ISO8859-1�Q?br /> 　　2、jspc用相当于“javac –encoding �Q�Jsp-charset�Q?#8221;的命令解释JSP文�g中出现的所有字�W�，包括中文字符和ASCII字符�Q�然后把�q�些字符转换成Unicode字符�Q�再转化�?UTF格式�Q�存为JAVA文�g。ASCII码字�W��{化�ؓUnicode字符时只是简单地在前面加“00”�Q�如“A”�Q��{化�ؓ“\u0041”�Q�不需要理由，Unicode的码表就是这么编的）。然后，�l�过到UTF的�{换，又变�?#8220;41”了！�q�也��是可以使用普通文本编辑器查看由JSP生成的JAVA文�g的原因；
　　3、引擎用相当�?#8220;javac –encoding UNICODE”的命令，把JAVA文�g�~�译成CLASS文�g�Q?br /> 　　先看一下这些过�E�中中文字符的�{换情��c��有如下源代码：
�Q?@ page contentType="text/html; charset=gb2312"%�Q?br /> �Q�html�Q�＜body�Q?br /> �Q?
　String a="中文";
　out.println(a);
%�Q?br /> �Q?body�Q�＜/html�Q?
两个字的GB2312�~�码�?#8220;D6 D0 CE C4”。经查表�Q?#8220;中文”两字的Unicode�~�码�?#8220;\u4E2D\u6587”�Q�用 UTF表示��是“E4 B8 AD E6 96 87”。此JSP文�g生成的JAVA文�g中的“中文”两个字被“E4 B8 AD E6 96 87”替代了，再查看由JAVA文�g�~�译生成的CLASS文�g�Q�发现结果与JAVA文�g中的完全一栗��?br />
再看JSP中指定的CharSet为ISO-8859-1的情��c�?br /> �Q?@ page contentType="text/html; charset=ISO-8859-1"%�Q?br /> �Q�html�Q�＜body�Q?br /> �Q?
　String a="中文";
　out.println(a);
%�Q?br /> �Q?body�Q�＜/html�Q?
先推��一下生成的JAVA文�g和CLASS文�g的过�E�：jspc用ISO-8859-1来解�?#8220;中文”�Q��ƈ把它映射到Unicode。由于ISO- 8859-1�?位的�Q�其映射规则��是在每个字节前�?#8220;00”�Q�所以，映射后的Unicode�~�码应�ؓ“\u00D6\u00D0\u00CE\ u00C4”�Q��{化成UTF后应该是“C3 96 C3 90 C3 8E C3 84”。最后，打开文�g看一下，JAVA文�g和CLASS文�g中，“中文”果然都表�C�Zؓ“C3 96 C3 90 C3 8E C3 84”�?br /> 如果上述代码中不指定�Q�Jsp-charset�Q�，��x��W�一行写�?#8220;�Q?@ page contentType="text/html" %�Q?#8221;�Q�JSPC会��用file.encoding的设�|�来解释JSP文�g。在RedHat 6.2上，其处理结果与指定为ISO-8859-1是完全相同的�?br />
到现在�ؓ止，已经解释了从JSP文�g到CLASS文�g的�{变过�E�中中文字符的映��过�E�。一句话�Q�从“JspCharSet到Unicode再到UTF”�?/p>

�?Servlet从源文�g到Class的过�E?br /> 本节��讨论Servlet的编译过�E��ƈ跟踪其中的中文变化�?br /> �?#8220;javac”�~�译Servlet源文件。javac可以�?#8220;-encoding �Q�Compile-charset�Q?#8221;参数�Q�意思是“用＜ Compile-charset �Q�中指定的编码来解释Serlvet源文�?#8221;�?br /> 源文件在�~�译�Ӟ��用＜Compile-charset�Q�来解释所有字�W�，包括中文字符和ASCII字符。然后把字符帔R��转变成Unicode字符�Q�最后，把Unicode转变成UTF�?br /> 在Servlet中，�q�有一个地方设�|�输出流的CharSet。通常在输出结果前�Q�调用HttpServletResponse�?setContentType�Ҏ��来达��C��在JSP中设�|�＜Jsp-charset�Q�一��L��效果�Q�称之�ؓ�Q�Servlet-charset�Q��?br /> 注意�Q�文中一共提��C��三个变量�Q�＜Jsp-charset�Q�、＜Compile-charset�Q�和�Q�Servlet-charset�Q�。其中，JSP文�g只与�Q�Jsp-charset�Q�有养I��而＜Compile-charset�Q�和�Q�Servlet-charset�Q�只与Servlet有关�?/p>

import javax.servlet.*;
import javax.servlet.http.*;
class testServlet extends HttpServlet
{
　public void doGet(HttpServletRequest req,HttpServletResponse res)
　throws ServletException,java.io.IOException
　{
　　res.setContentType("text/html; charset=GB2312");
　　java.io.PrintWriter out=res.getWriter();
　　out.println("�Q�html�Q?);
　　out.println("#中文#");
　　out.println("�Q?html�Q?);
　}
}

开始编译。下表是�Q�Compile-charset�Q�不同时�Q�CLASS文�g�?#8220;中文”两字的十六进制码。在�~�译�q�程中，�Q�Servlet- charset�Q�不起�Q何作用。＜Servlet-charset�Q�只对CLASS文�g的输��Z�生媄响，实际上是�Q�Servlet-charset�Q�和�Q�Compile-charset�Q�一��P��辑ֈ�与JSP文�g中的�Q�Jsp-charset�Q�相同的效果�Q�因为＜Jsp-charset�Q�对�~�译�?CLASS文�g的输出都会��生媄响�?#8220;中文”两个字的GB2312�~�码�?#8220;D6 D0 CE C4”

Compile-charset   Class文�g�?nbsp;                     �{�效的Unicode�?
GB2312            E4 B8 AD E6 96 87(UTF)          \u4E2D\u6587 (在Unicode中＝“中文”)
ISO-8859-1        C3 96 C3 90 C3 8E C3 84 (UTF)   \u00D6 \u00D0 \u00CE \u00C4 (在D6 D0 CE C4前面各加了一�?0)
�Q�默认）           同ISO-8859-1                     同ISO-8859-1

普通Java�E�序的编译过�E�与Servlet完全一栗��?br /> 接下来看看CLASS又是怎样输出中文的呢�Q?br /> 上文说过�Q�字�W�串在内存中表现为Unicode�~�码。至于这�U�Unicode�~�码表示了什么，那要看它是从哪种字符集映��过来的�Q�也��是说要看它的祖先。看看上面的例子�Q�如果给一串Unicode�~�码“00D6 00D0 00CE 00C4”�Q�如果不作�{换，直接用Unicode码表来对照它�Ӟ��是四个字�W�（而且是特�D�字�W�）�Q�假如把它与“ISO8859-1”�q�行映射�Q�则直接��L��前面�?#8220;00”卛_��得到“D6 D0 CE C4”�Q�这是ASCII码表中的四个字符�Q�而假如把它当作GB2312来进行映��，得到的结果很可能是一大堆��q��Q�因为在GB2312中有可能没有�Q�也有可能有�Q�字�W�与00D6�{�字�W�对应（如果对应不上�Q�将得到0x3f�Q�也��是问号�Q�如果对应上了，�׃��00D6�{�字�W�太靠前�Q�估计也是一些特�D�符��P��真正的汉字在Unicode中的�~�码�?E00开始）�?br /> 可以�Q�同��L��Unicode字符�Q�可以解释成不同的样子。当�Ӟ��q�其中有一�U�是我们期望的结果�?br /> 以上例而论�Q?#8220;D6 D0 CE C4”应该是我们所惌��的，当把“D6 D0 CE C4”输出到IE中时�Q�用“��体中�?#8221;方式查看�Q�就能看到清楚的“中文”两个字了�?br /> Servlet中，当Compile-charset=Servlet-charset�Ӟ��昄��l�果肯定正常�?/p>

�?最�l�结论：
在Class输出字符串前�Q�会��Unicode的字�W�串按照某一�U�内码重新生成字节流�Q�然后把字节��输入，相当于进行了一�?#8220;String.getBytes(???)”操作�???代表某一�U�字�W�集�?br /> 如果是Servlet�Q�那么，�q�种内码��是在HttpServletResponse.setContentType()�Ҏ��中指定的内码�Q�也��是上文定义的＜Servlet-charset�Q��?br /> 如果是JSP�Q�那么，�q�种内码��是在＜%@ page contentType=""%�Q�中指定的内码，也就是上文定义的�Q�Jsp-charset�Q��?br /> 如果是Java�E�序�Q�那么，�q�种内码��是file.encoding中指定的内码�Q�默认�ؓISO8859-1�?/p>

5>�l�论
在Jsp文�g中，要指定contentType�Q�其中，charset的��D��与客��L��览器所用的字符集一��P��对于其中的字�W�串帔R��Q�不需做�Q何内码�{换；对于字符串变量，要求能根据ContentType中指定的字符集还原成客户端能识别的字节流�Q�简单地��_��是“字符串变量是��Z��Q�Jsp- charset�Q�字�W�集�?#8221;�Q?br /> 在Servlet中，必须用HttpServletResponse.setContentType()讄��charset�Q�且讄��成与客户端内码一��_��对于其中的字�W�串帔R��Q�需要在Javac�~�译时指定encoding�Q�这个encoding必须与编写源文�g的��^台的字符集一��P��一般说来都�?GB2312或GBK�Q�对于字�W�串变量�Q�与JSP一��P��必须“是基于＜Servlet-charset�Q�字�W�集�?#8221;�?nbsp;

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1339656

hilor 2008-02-20 16:32 发表评论

JAVA字符�~�码�p�d��一�Q�Unicode,GBK,GB2312,UTF-8概念基础(�?

hilor — Wed, 20 Feb 2008 08:29:00 GMT

�q�两天抽旉��又�ȝ��/整理了一下各�U�编码的实际�~�码方式�Q�和在Java应用中的使用情况�Q�在�q�里记录下来以便日后参考�?/div>

��Z��构成一个完整的�Ҏ��字编码的认识和深入把握，以便处理在Java开发过�E�中遇到的各�U�问题，特别是�ؕ码问题，我觉得组成一个系列来描述和分析更好一些，包括三篇文章�Q?/div>

�W�一��：JAVA字符�~�码�p�d��一�Q?a >Unicode,GBK,GB2312,UTF-8概念基础

�W�二��：JAVA字符�~�码�p�d��二：Unicode,ISO-8859,GBK,UTF-8�~�码及相互�{�?/a>

�W�三��：JAVA字符�~�码�p�d��三：Java应用中的�~�码问题

�W�一��：JAVA字符�~�码�p�d��一�Q�Unicode,GBK,GB2312,UTF-8概念基础

本部分采用重用，转蝲一��文章来完成�q�部分的目标�?/div>

来源�Q�holen'blog 对字�W�编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理�?/div>

地址�Q�http://blog.donews.com/holen/archive/2004/11/30/188182.aspx

Unicode:

unicode.org制定的编码机�? 要将全世界常用文字都函括�q�去.
�?.0中是16位编�? 由U+0000到U+FFFF. 每个2byte码对应一个字�W? �?.0开始抛弃了16位限�? 原来�?6位作为基本位�q�面, 另外增加�?6个位�q�面, 相当�?0位编�? �~�码范围0�?x10FFFF.

UCS:

ISO制定的ISO10646标准所定义�?Universal Character Set, 采用4byte�~�码.

Unicode与UCS的关�p?

ISO 与unicode.org是两个不同的�l�织, 因此最初制定了不同的标�? 但自从unicode2.0开�? unicode采用了与ISO 10646-1相同的字库和字码, ISO也承诺ISO10646��不会给��出0x10FFFF的UCS-4�~�码赋�? 使得两者保持一�?

UCS的编码方�?

UCS-2, 与unicode�?byte�~�码基本一�?

UCS-4, 4byte�~�码, 目前是在UCS-2前加�?个全零的byte.

UTF: Unicode/UCS Transformation Format

UTF-8, 8bit�~�码, ASCII不作变换, 其他字符做变长编�? 每个字符1-3 byte. 通常作�ؓ外码. 有以下优�?
* 与CPU字节��序无关, 可以在不同��^��C��间交��?br /> * 定w��能力�? ��M��一个字节损坏后, 最多只会导致一个编码码位损�? 不会��N��错误(如GB码错一个字节就会整行�ؕ�?

UTF-16, 16bit�~�码, 是变长码, 大致相当�?0位编�? 值在0�?x10FFFF之间, 基本上就是unicode�~�码的实�? 它是变长�? 与CPU字序有关, 但因为最省空�? �怽�为网�l�传输的外码.
UTF-16是unicode的preferred encoding.

UTF-32, 仅��用了unicode范围(0�?x10FFFF)�?2位编�? 相当于UCS-4的子�?

UTF与unicode的关�p?

Unicode是一个字�W�集, 可以看作为内�?
而UTF 是一�U�编码方�? 它的出现是因为unicode不适宜在某些场合直接传输和处理. UTF-16直接��是unicode�~�码, 没有变换, 但它包含�?x00在编码内, �?56字节码的�W�一个byte都是0x00, 在操作系�l?C语言)中有�Ҏ��意义, 会引起问�? 采用UTF-8�~�码对unicode的直接编码作些变换可以避免这问题, �q�带来一些优�?

中国国标�~�码:

GB 13000: 完全�{�同于ISO 10646-1/Unicode 2.1, 今后也将随ISO 10646/Unicode的标准更改而同步更�?

GBK: 对GB2312的扩�? 以容�U�GB2312字符集范围以外的Unicode 2.1的统一汉字部分, �q�且增加了部分unicode中没有的字符.

GB 18030-2000: ��Z��GB 13000, 作�ؓUnicode 3.0的GBK扩展版本, 覆盖了所有unicode�~�码, ��C��{�同于UTF-8, UTF-16, 是一�U�unicode�~�码形式. 变长�~�码, 用单字节/双字�?4字节对字�W�编�? GB18030向下兼容GB2312/GBK.
GB 18030是中国所有非手持/嵌入式计��机�pȝ��的强制实施标�?

-------------------------------

什么是 UCS �?ISO 10646?

国际标准 ISO 10646 定义�?通用字符�?(Universal Character Set, UCS). UCS 是所有其他字�W�集标准的一个超�? 它保证与其他字符集是双向兼容�? ��是�? 如果你将��M��文本字符串翻译到 UCS格式, 然后再翻译回原编�? 你不会丢�׃�Q何信�?

UCS 包含了用于表达所有已知语�a�的字�W? 不仅包括拉丁�?希腊�? 斯拉夫语,希伯来语,阿拉伯语,亚美��g��语和乔治亚语的描�q? �q�包括中�? 日文和韩文这��L��象�Ş文字, 以及 �q�_��? 片假�? 孟加拉语, 旁遮普语果鲁�I�奇字符(Gurmukhi), 泰米��语, �?埃纳徯��(Kannada), Malayalam, 泰国�? 老挝�? 汉语拼音(Bopomofo), Hangul, Devangari, Gujarati, Oriya, Telugu 以及其他��C��C��清的�? 对于�q�没有加入的语言, �׃��正在研究怎样在计��机中最好地�~�码它们, 因而最�l�它们都��被加入. �q�些语言包括 Tibetian, 高棉�? Runic(古代北欧文字), 埃塞俄比亚语, 其他象�Ş文字, 以及各种各样的印-�Ƨ语�pȝ��语言, �q�包括挑选出来的艺术语言比如 Tengwar, Cirth 和克林�A�?Klingon). UCS �q�包括大量的囑�Ş�? 印刷用的, 数学用的和科学用的符�? 包括所有由 TeX, Postscript, MS-DOS�Q�MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版�pȝ��提供的字�W?

ISO 10646 定义了一�?31 位的字符�? 然�? 在这巨大的编码空间中, �q�今为止只分配了�?65534 个码�?(0x0000 �?0xFFFD). �q�个 UCS �?16位子集称�?基本多语�a��?(Basic Multilingual Plane, BMP). ��被�~�码�?16 �?BMP 以外的字�W�都属于非常�Ҏ��的字�W?比如象�Ş文字), 且只有专家在历史和科学领域里才会用到它们. 按当前的计划, ��来也许再也不会有字�W�被分配��C�� 0x000000 �?0x10FFFF �q�个覆盖了超�q?100 万个潜在的未来字�W�的 21 位的�~�码�I�间以外��M��. ISO 10646-1 标准�W�一�ơ发表于 1993 �q? 定义了字�W�集�?BMP 中内容的架构. 定义 BMP 以外的字�W�编码的�W�二部分 ISO 10646-2 正在准备�? 但也许要�q�好几年才能完成. 新的字符仍源源不断地加入�?BMP �? 但已�l�存在的字符是稳定的且不会再改变�?

UCS 不仅�l�每个字�W�分配一个代�? 而且赋予了一个正式的名字. 表示一�?UCS �?Unicode 值的十六�q�制�? 通常在前面加�?"U+", ��p�� U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 �?U+007F �?US-ASCII(ISO 646) 是一致的, U+0000 �?U+00FF �?ISO 8859-1(Latin-1) 也是一致的. �?U+E000 �?U+F8FF, 已经 BMP 以外的大范围的编码是为私用保留的.

什么是�l�合字符?

UCS里有些编码点分配�l�了 �l�合字符. 它们�c�M��于打字机上的无间隔重音键. 单个的组合字�W�不是一个完整的字符. 它是一个类��g��重音�W�或其他指示标记, 加在前一个字�W�后�? 因�? 重音�W�可以加在�Q何字�W�后�? 那些最重要的被加重的字�W? ��p��普通语�a�的正字法(orthographies of common languages)里用到的那种, �?UCS 里都有自��q��位置, 以确保同老的字符集的向后兼容�? 既有自己的编码位�|? 又可以表�C�Zؓ一个普通字�W�跟随一个组合字�W�的被加重字�W? 被称�?预作字符(precomposed characters). UCS 里的预作字符是�ؓ了同没有预作字符的旧�~�码, 比如 ISO 8859, 保持向后兼容性而设�? �l�合字符机制允许在�Q何字�W�后加上重音�W�或其他指示标记, �q�在�U�学�W�号中特别有�? 比如数学方程式和国际��x��字母, 可能会需要在一个基本字�W�后�l�合上一个或多个指示标记.

�l�合字符跟随着被修饰的字符. 比如, 徯��中的元音变音字符 ("拉丁大写字母A 加上分音�W?), 既可以表�C�Zؓ UCS �?U+00C4 的预作字�W? 也可以表�C�成一个普�?"拉丁大写字母A" 跟着一�?�l�合分音�W?:U+0041 U+0308 �q�样的组�? 当需要堆叠多个重音符, 或在一个基本字�W�的上面和下面都要加上组合标记时, 可以使用多个�l�合字符. 比如在泰国文�? 一个基本字�W�最多可加上两个�l�合字符.

什么是 UCS 实现�U�别?

不是所有的�pȝ��都需要支持象�l�合字符�q�样�?UCS 里所有的先进机制. 因此 ISO 10646 指定了下列三�U�实现��?

�U�别1: 不支持组合字�W�和 Hangul Jamo 字符 (一�U�特别的, 更加复杂的韩国文的编�? 使用两个或三个子字符来编码一个韩文音�?
�U�别2: �c�M��于��?, 但在某些文字�? 允许一列固定的�l�合字符 (例如, 希伯来文, 阿拉伯文, Devangari, 孟加拉语, 果鲁�I�奇�? Gujarati, Oriya, 泰米��语, Telugo, �?埃纳徯��, Malayalam, 泰国语和老挝�?. 如果没有�q�最��L��的几个组合字�W? UCS ��׃��能完整地表达�q�些语言.
�U�别3: 支持所有的 UCS 字符, 例如数学家可以在��L��一个字�W�上加上一�?tilde(颚化�W�号,西班牙语字母上面的～)或一个箭�?或两者都�?.

什么是 Unicode?

历史�? 有两个独立的, 创立单一字符集的��试. 一个是国际标准化组�l?ISO)�?ISO 10646 ��目, 另一个是�?一开始大多是��国�?多语�a�软�g刉��商�l�成的协会组�l�的 Unicode ��目. �q�运的是, 1991�q�前�? 两个��目的参与者都认识�? 世界不需要两个不同的单一字符�? 它们合�ƈ双方的工作成�? �q��ؓ创立一个单一�~�码表而协同工�? 两个��目仍都存在�q�独立地公布各自的标�? �?Unicode 协会�?ISO/IEC JTC1/SC2 都同意保�?Unicode �?ISO 10646 标准的码表兼�? �q�紧密地共同调整��M��未来的扩�?

那么 Unicode �?ISO 10646 不同在什么地�?

Unicode 协会公布�?Unicode 标准严密地包含了 ISO 10646-1 实现�U�别3的基本多语言�? 在两个标准里所有的字符都在相同的位�|��ƈ且有相同的名�?

Unicode 标准额外定义了许多与字符有关的语义符号学, 一般而言是对于实现高质量的印刷出版系�l�的更好的参�? Unicode 详细说明了绘制某些语�a�(比如阿拉伯语)表达形式的算�? 处理双向文字(比如拉丁与希伯来文�؜合文�?的算法和排序与字�W�串比较所需的算�? 以及其他许多东西.

另一斚w��, ISO 10646 标准, ��p��q��ؓ人知�?ISO 8859 标准一�? 只不�q�是一个简单的字符集表. 它指定了一些与标准有关的术�? 定义了一些编码的别名, �q�包括了规范说明, 指定了怎样使用 UCS �q�接其他 ISO 标准的实�? 比如 ISO 6429 �?ISO 2022. �q�有一些与 ISO 紧密相关�? 比如 ISO 14651 是关�?UCS 字符串排序的.

考虑�?Unicode 标准有一个易记的名字, 且在��M��好的书店里的 Addison-Wesley 里有, 只花�?ISO 版本的一��部�? 且包括更多的辅助信息, 因而它成�ؓ使用�q�泛得多的参考也��׃��ؓ奇了. 然�? 一般认�? 用于打印 ISO 10646-1 标准的字体在某些斚w��的质量要高于用于打印 Unicode 2.0�? 专业字体设计者��L��被徏议说要两个标准都实现, 但一些提供的样例字�Ş有显著的区别. ISO 10646-1 标准同样使用四种不同的风格变体来昄��表意文字如中�? 日文和韩�?(CJK), �?Unicode 2.0 的表里只有中文的变体. �q�导致了普遍的认�?Unicode �Ҏ��本用��h��说是不可接收的传�? ��管是错误的.

什么是 UTF-8?

首先 UCS �?Unicode 只是分配整数�l�字�W�的�~�码�? 现在存在好几�U�将一串字�W�表�C�Zؓ一串字节的�Ҏ��. 最显而易见的两种�Ҏ��是将 Unicode 文本存储�?2 �?�?4 个字节序列的�? �q�两�U�方法的正式名称分别�?UCS-2 �?UCS-4. 除非另外指定, 否则大多数的字节都是�q�样�?Bigendian convention). ��一�?ASCII �?Latin-1 的文件�{换成 UCS-2 只需��单地在每�?ASCII 字节前插�?0x00. 如果要�{换成 UCS-4, 则必��d��每个 ASCII 字节前插入三�?0x00.

�?Unix 下��?UCS-2 (�?UCS-4) 会导致非�怸�重的问题. 用这些编码的字符串会包含一些特�D�的字符, 比如 '\0' �?'/', 它们�?文�g名和其他 C 库函数参数里都有特别的含�? 另外, 大多��C��?ASCII 文�g�?UNIX 下的工具, 如果不进行重大修�Ҏ��无法��d�� 16 位的字符�? ��Z��q�些原因, 在文件名, 文本文�g, 环境变量�{�地�? UCS-2 不适合作�ؓ Unicode 的外部编�?

�?ISO 10646-1 Annex R �?RFC 2279 里定义的 UTF-8 �~�码没有�q�些问题. 它是�?Unix 风格的操作系�l�下使用 Unicode 的明昄��Ҏ��.

UTF-8 有一下特�?

UCS 字符 U+0000 �?U+007F (ASCII) 被编码�ؓ字节 0x00 �?0x7F (ASCII 兼容). �q�意味着只包�?7 �?ASCII 字符的文件在 ASCII �?UTF-8 两种�~�码方式下是一��L��.
所�?>U+007F �?UCS 字符被编码�ؓ一个多个字节的�? 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作��Z�Q何其他字�W�的一部分.
表示�?ASCII 字符的多字节串的�W�一个字节��L��?0xC0 �?0xFD 的范围里, �q�指��个字�W�包含多��个字节. 多字节串的其余字节都�?0x80 �?0xBF 范围�? �q��得重新同步非常容�? �q��ɾ~�码无国�? 且很��受丢失字节的媄�?
可以�~�入所有可能的 2³¹�?UCS 代码
UTF-8 �~�码字符理论上可以最多到 6 个字节长, 然�?16 �?BMP 字符最多只用到 3 字节�?
Bigendian UCS-4 字节串的排列��序是预定的.
字节 0xFE �?0xFF �?UTF-8 �~�码中从未用�?

下列字节串用来表�C�Z��个字�W? 用到哪个串取决于该字�W�在 Unicode 中的序号.

U-00000000 - U-0000007F:	0xxxxxxx
U-00000080 - U-000007FF:	110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF:	1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF:	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF:	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF:	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx 的位�|�由字符�~�码数的二进制表�C�的位填�? ��靠右的 x ��h��少的特�D�意�? 只用最短的那个��_��表达一个字�W�编码数的多字节�? 注意在多字节串中, �W�一个字节的开�?1"的数目就是整个串中字节的数目.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权�W�号) �?UTF-8 里的�~�码�?

11000010 10101001 = 0xC2 0xA9

而字�W?U+2260 = 0010 0010 0110 0000 (不等�? �~�码�?

11100010 10001001 10100000 = 0xE2 0x89 0xA0

�q�种�~�码的官方名字拼写�ؓ UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在�Q何文��中用其他名�?(比如 utf8 �?UTF_8) 来表�C?UTF-8, 当然除非你指的是一个变量名而不是这�U�编码本�w?

什么编�E�语�a�支持 Unicode?

在大�U?1993 �q�之后开发的大多数现代编�E�语�a�都有一个特别的数据�c�d��, 叫做 Unicode/ISO 10646-1 字符. �?Ada95 中叫 Wide_Character, �?Java 中叫 char.

ISO C 也详�l�说明了处理多字节编码和宽字�W?(wide characters) 的机�? 1994 �q?9 �?Amendment 1 to ISO C 发表时又加入了更�? �q�些机制主要是�ؓ各类东亚�~�码而设计的, 它们比处�?UCS 所需的要健壮得多. UTF-8 �?ISO C 标准调用多字节字�W�串的编码的一个例�? wchar_t �c�d��可以用来存放 Unicode 字符.

hilor 2008-02-20 16:29 发表评论

Linux下安装Tomcat5.5�Q��ƈ�q�行优化

hilor — Tue, 19 Feb 2008 04:56:00 GMT

Linux下安装Tomcat5.5�Q��ƈ�q�行优化

1. 安装JDK1.5  (Tomcat5.5必须要JDK1.5以上版本)
1)下蝲RPM包或bin�?
2)安装步骤
  a. 如果是bin包，需�?chmod 777  jdk-1_5_0_12-linux-i586-rpm.bin
     然后执行  ./jdk-1_5_0_12-linux-i586-rpm.bin
  b. 软�g自动安装�?/usr/java/jdk1.5.0_12
  c. vi ~/.bash_profile
     在PATH后面��d��:/usr/java/jdk1.5.0_12/bin

2.安装Tomcat5.5
1)下蝲源码�?nbsp; apache-tomcat-5.5.23.tar.gz
   下蝲地址�Q�http://tomcat.apache.org
2)安装步骤
   a. tar zxvf apache-tomcat-5.5.23.tar.gz /usr/local/tomcat1
      tar zxvf apache-tomcat-5.5.23.tar.gz /usr/local/tomcat2
   b. 修改  bin/catalina.sh
      JAVA_HOME=/usr/java/jdk1.5.0_12
      JAVA_OPTS=' -Xms256m -Xmx512m -XX:PermSize=512M -XX:MaxPermSize=512m '
3)起停
  /usr/local/tomcat1/bin/startup.sh|shutdown.sh

3.安装Tomcat-Native�q�接APR�Q�提高静态资源的讉K��性能
1)下蝲软�g�?nbsp; tomcat-native-1.1.10-src.tar.gz
   下蝲地址�Q�http://archive.apache.org/dist/tomcat/tomcat-connectors/native/
2)apr和apr-util的安装参�?span class="ubb_link">Linux下Apache和Apr整合�Q�提高Apache性能
2)安装步骤
   a. tar zxvf tomcat-native-1.1.10-src.tar.gz
   b. cd /tomcat-native-1.1.10-src/jni/native
   c. ./configure --prefix=/usr/local/apache2/apr --with-apr=/usr/local/apache2/apr --with-java-home=/usr/java/jdk1.5.0_12
   d. make
   e. make install
   f. 修改  bin/catalina.sh ��d�� CATALINA_OPTS=' -Djava.library.path=/usr/local/apache2/apr '

hilor 2008-02-19 12:56 发表评论

java string与date�c�d��转换

hilor — Fri, 09 Nov 2007 04:27:00 GMT

/**
    SimpleDateFormat函数语法�Q?br />
         G �q�代标志�W?br />          y �q?br />          M �?br />          d �?br />          h �?在上午或下午 (1~12)
         H �?在一天中 (0~23)
         m �?br />          s �U?br />          S 毫秒
         E 星期
         D 一�q�中的第几天
         F 一月中�W�几个星期几
         w 一�q�中�W�几个星�?br />          W 一月中�W�几个星�?br />          a 上午 / 下午标记�W?
         k �?在一天中 (1~24)
         K �?在上午或下午 (0~11)
         z 时区

常见标准的写�?yyyy-MM-dd HH:mm:ss",注意大小写，旉��?4��时�Ӟ��24��时制�{换成12��时制只需��HH�Ҏ��hh,不需要另外的函数�?/font>
*/

DateFormat format1 = new SimpleDateFormat("yyyy-MM-dd");

DateFormat format 2= new SimpleDateFormat("yyyy�q�MM月dd�?HH时mm分ss�U?);

Date date = null;

String str = null;

// String转Date

str = "2007-1-18";

try {

date = format1.parse(str);

data = format2.parse(str);

} catch (ParseException e) {

e.printStackTrace();

}

//Date转String

date=new Date();

str=format1.format(date);

str=format2.format(date);

1、Date—�?gt;String

String sdate;

Date ddate;

……

sdate=(new SimpleDateFormat("yyyy-MM-dd")).format(ddate);

2、String—�?gt;Date

SimpleDateFormat sdf=new SimpleDateFormat("yyyy-MM-dd");

sdf.setLenient(false);

String sdate="2006-06-06";

Date ddate;

ddate=sdf.parse(sdate);

另外Integer、Double�{�数据包装类型与String�c�d��的相互�{�?/strong>为：

�Q�以Integer��Z��Q?/div>
Integer—�?gt;String

Integer ii;

String si;

……

si=ii.toString;

String—�?gt;Intteger

Integer ii;

String si;

……

ii=Integer.valueOf(si);

附：

日期和时间模�?摘自JDK1.50 DOC)

日期和时间格式由日期和时间模�?/em> 字符串指定。在日期和时间模式字�W�串中，未加引号的字�?'Z' �?'z' 被解释�ؓ模式字母�Q�用来表�C�日期或旉��字符串元素。文本可以��用单引号 ("''" 表示单引受��所有其他字�W�均不解释；只是在格式化时将它们��单复制到输出字符�Ԍ��或者在分析时与输入字符串进行匹配�?

定义了以下模式字母（所有其他字�W?'Z' �?'z' 都被保留�Q�：

字母日期或时间元�? 表示 �C�Z��

Text Year 96

Month Jul; Number W 月䆾中的周数 Number Number d 月䆾中的天数 Number Number E 星期中的天数 Text Tue

Text H 一天中的小时数�Q?-23�Q? Number Number K am/pm 中的��时敎ͼ�0-11�Q? Number Number m ��时中的分钟�? Number Number S 毫秒�? Number General time zone PST; Z 时区 RFC 822 time zone hilor 2007-11-09 12:27 发表评论 javascript�Ҏ��字符转换 hilor — Thu, 18 Oct 2007 03:53:00 GMT javascript和JAVA一�?一些特�D�字�W�需要�{�?/div> 特别是在一些JSP�|�页的开发中,好多�E�序员经�怼�忘掉�q�点, �? 1 <% List textList = (List)request.getAttribute("textList"); %> 2 <script> 3 9 script> �q�段JS��存在问�?未对�Ҏ��W�号�q�行处理.有特�D�符��L��情况下有可能报JSERROR JAVASCRIPT中需要�{义的�? 转义序列字符 \b 退�?/font> \f 走纸换页 \n 换行 \r 回�R \t 横向��x�� (Ctrl-I) \' 单引�?/font> \" 双引�?/font> \\ 反斜�?/font> 此外,�?�W�号我觉得也有必要进行处�?因�ؓ�?--> �q�样的字�W�串也会使SCRIPT出错. 下面提供一个比较实用java的方�?做这个特�D�符��L��处理: 1public class JavaScriptUtils { 2 public static String javaScriptEscape(String input) { 3 if (input == null) { 4 return input; 5 } 6 StringBuffer filtered = new StringBuffer(input.length()); 7 char prevChar = '\u0000'; 8 char c; 9 for (int i = 0; i < input.length(); i++) { 10 c = input.charAt(i); 11 if (c == '"') { 12 filtered.append("\\\""); 13 } 14 else if (c == '\'') { 15 filtered.append("\\'"); 16 } 17 else if (c == '\\') { 18 filtered.append("\\\\"); 19 } 20 else if (c == '\t') { 21 filtered.append("\\t"); 22 } 23 else if (c == '\n') { 24 if (prevChar != '\r') { 25 filtered.append("\\n"); 26 } 27 } 28 else if (c == '\r') { 29 filtered.append("\\n"); 30 } else if (c == '\f') { 31 filtered.append("\\f"); 32 } else if (c == '/') { 33 filtered.append("\\/"); 34 } 35 else { 36 filtered.append(c); 37 } 38 prevChar = c; 39 } 40 return filtered.toString(); 41 } 42} 43 上面的例子应改�ؓ: 1 <% List textList = (List)request.getAttribute("textList"); %> 2 <script> 3 9 script> hilor 2007-10-18 11:53 发表评论开始→�q�行→输入的命��o集锦 hilor — Tue, 16 Oct 2007 04:44:00 GMT 开�?#8594;�q�行→输入的命令集�?br /> gpedit.msc-----�l�策�? 　　sndrec32-------录音�? 　　Nslookup-------IP地址侦测�? 　　explorer-------打开资源��理�? 　　logoff---------注销命��o 　　tsshutdn-------60�U�倒计时关机命�? 　　lusrmgr.msc----本机用户和组　　services.msc---本地服务讄�� 　　oobe/msoobe /a----��查XP是否�Ȁ�z? 　　notepad--------打开��C��? 　　cleanmgr-------垃圾整理　　net start messenger----开始信使服�? 　　compmgmt.msc---计算机管�? 　　net stop messenger-----停止信��服务　　conf-----------启动 netmeeting 　　dvdplay--------DVD播放�? 　　charmap--------启动字符映射�? 　　diskmgmt.msc---��盘��理实用�E�序　　calc-----------启动计算�? 　　dfrg.msc-------��盘��片整理�E�序　　chkdsk.exe-----Chkdsk��盘��? 　　devmgmt.msc--- 讑֤��理�? 　　regsvr32 /u *.dll----停止dll文�g�q�行　　drwtsn32------ �pȝ��ȝ�� 　　rononce -p ----15�U�关�? 　　dxdiag---------��查DirectX信息　　regedt32-------注册表编辑器　　Msconfig.exe---�pȝ��配置实用�E�序　　rsop.msc-------�l�策略结果集　　mem.exe--------昄��内存使用情况　　regedit.exe----注册�? 　　winchat--------XP自带局域网聊天　　progman--------�E�序��理�? 　　winmsd---------�pȝ��信息　　perfmon.msc----计算机性能监测�E�序　　winver---------��查Windows版本　　sfc /scannow-----扫描错误�q�复�? 　　taskmgr-----��d��理器（2000�Q�xp�Q?003) hilor 2007-10-16 12:44 发表评论