java �~�码

iamct — Wed, 18 Apr 2012 03:38:00 GMT

我们部门底层的web应用有一套处理编码的��程机制�Q�主要处理因历史原因或者跨部门产品之间gbk和utf8剪不清理�q��ؕ的关�p�R�?br />�?天同事有询问相关�~�码的问题，在此做个整理�Q�希望能够对大家有所帮助�?br />
首先是编码的历史�Q�这是一�?a title="很有意思的解读" href="http://www.aygfsteel.com/iamct/articles/374954.html">很有意思的解读。写的很�q�默�Q�便于理解�?br />
下面主要写于与java惛_��的编码，主要解读unicode �Q�utf8 和gbk�?br />

JVM里面的�Q何字�W�串资源都是Unicode�Q�就是说�Q��Q何String�c�d��的数据都是Unicode�~�码。没有例外，因此我们可以�q�么��_��JVM里面的String是不带编码的。因��Z��有且只对应一�U�Unicode�?/div>

一个字�W�的Unicode�~�码是确定的。也��是说Unicode是一�U�字�W�集�Q�里面字�W�与�~�码是一一对应的，�q�里有个码表可查,unicode 码表。但是在实际传输�q�程中，�׃��不同�pȝ��q�_��的设计不一定一��_��以及��Z��节省�I�间的目的，对Unicode�~�码的实现方式有所不同。Unicode的实现方式称�?strong>Unicode转换格式�Q�Unicode Transformation Format�Q�简�U�CؓUTF�Q�。我们常用的��是UTF8.
UTF8是如何存储一个Unicode�~�码的呢。也��是utf8作�ؓ一�U�Unicode Transformation Format是如何工作的呢？
首先utf8 是可变长的，UTF-8使用一臛_��个字节�ؓ每个字符�~�码。参照下表，我们把精力放在第1列，�W?列，和注释�?br />

对于ASCII字符�Q�可以用七个bit位来表示�Q�x6 x5 x4 x3 x2 x1 x0.�W�八个bit永远�?�?br />

�W?28�?047个字节，要用10个bit来表�C�，110yyyyy(C0-DF) 10zzzzzz(80-BF)

�W?048�?5535个字节，要用16个bit来表�C�，Utf-8把这些字节编成下面这��L��三个byte�?110xxxx(E0-EF) 10yyyyyy 10zzzzzz

大于65535其余�?个byte来表�C��?br />
举个例子�Q?#8220;中国”的中�Q�unicode�~�码�?#8220;\u4e2d", 对应的编码除了查表，java可以用命令行�Q�运�?native2ascii �q�行转化�?br />用window 自带的附件中的计��器�Q�查�?>�U�学型）�Q��{化成10�q�制�?0013�Q�二�q�制�?span style="color: red;">100111000101101
通过上面的表�Q�可知，转化成utf8后�ؓ三个字节�?br />

只需要将刚才转化的二�q�制�Q�上面标�U�的�Q�将下面的xxxx�Q�yyyyyy�Q�zzzzzz补齐卛_��?br />

1110xxxx(E0-EF) 10yyyyyy 10zzzzzz�Q�我们从低位开始补��P��不够的用0补齐�?br />11100100 10111000 10101101 �Q�换�?6�q�制为E4 B8 AD�?
好了我们用java代码来验证下�Q�是否正��?br />

public static void main(String[] args) {
        String ha = "�?/span>";
        byte b[] = null;
        try {
            b = ha.getBytes("utf-8");
        } catch (Exception e) {
            System.exit(-1);
        }

        for (int i = 0; i < b.length; i++) {
            System.out.print(Integer.toHexString(b[i]).substring(6) + " ");
        }

    }

输出果然是：e4 b8 ad�?br />utf8 wiki中有下描�q�ͼ�

对于UTF-8�~�码中的��L��字节B�Q�如果B的第一位�ؓ0�Q�则B为ASCII码，�q�且B独立的表�C�Z��个字�W?
如果B的第一位�ؓ1�Q�第二位�?�Q�则B��Z��个非ASCII字符�Q�该字符由多个字节表�C�）中的一个字节，�q�且不�ؓ字符的第一个字节编�?
如果B的前两位�?�Q�第三位�?�Q�则B��Z��个非ASCII字符�Q�该字符由多个字节表�C�）中的�W�一个字节，�q�且该字�W�由两个字节表示;
如果B的前三位�?�Q�第四位�?�Q�则B��Z��个非ASCII字符�Q�该字符由多个字节表�C�）中的�W�一个字节，�q�且该字�W�由三个字节表示;
如果B的前四位�?�Q�第五位�?�Q�则B��Z��个非ASCII字符�Q�该字符由多个字节表�C�）中的�W�一个字节，�q�且该字�W�由四个字节表示;

因此�Q�对UTF-8�~�码中的��L��字节�Q�根据第一位，可判断是否�ؓASCII字符;�Ҏ��前二位，可判断该字节是否��Z��个字�W�编码的�W�一个字�? �Ҏ��前四位（如果前两位均�?�Q�，可确定该字节为字�W�编码的�W�一个字节，�q�且可判断对应的字符由几个字节表�C?�Ҏ��前五位（如果前四位�ؓ1�Q�，可判断编�?是否有错误或数据传输�q�程中是否有错误�?/p>

反过来，我们�q�是拿刚才的”�?#8220;��Z��Q?1100100 10111000 10101101 �Q�第一个字节开始�ؓ110�Q�则�ȝ��二个字节�?0�Q�第三个字节�?0�Q�则认�ؓ是utf8字符�?br />于是��有了一个那个经典的“联�?�q�不�q?#8221;�U�d��“的经典段子�?br />我们在xp下，随便建立一个文�Ӟ��输入"联�?�Q�保存，�q�时你在打开是，发现”联�?2个字�W�不见了。奇怪吗�Q�？�Q�？�Q�？

我们知道默认保存的编码是ANSI�Q�实际也是类GBK的编码�?/div>

对应16�q�制为c1 aa cd a8�Q?转化成二�q�制�?1000001 10101010 11001101 10101000 �Q�我们来看，110xxxxx�Q?0xxxxxx 正好�W�合utf8的�Ş式�?br />�q�时候文件编写器以�ؓ你的文�g是utf8的文�Ӟ��然后默认已utf8的�Ş式给你打开展示。于是就出现��q��了。如果你�?#8221;联�?#8220;后面随便加几个字�W�。就不出出现灵异事�g了�?br />
那么我们�l�箋讨论 GBK和Unicode是什么关�p�d��Q?br />实际上GBK我们可以看做是字�W�集�Q�他也有自己一一对应的码表。google一下，很容易查到。这里有个Unicode和GBk对应的表Unicode-GBk�?br />在java中，

"我爱你莎�?/span>".getBytes("gbk");

�q�行转化�Q�其实就是类似查一个Unicode和GBk对应表进行�{化的。大家看一下Charset�q�个抽象�cȝ��那些子类��明白了�?br />通过上面的描�q�GBk和UTF8关系也就很明朗了�Q�完全可以通过Unicode�q�行中�{�?br />
同事在询问编码的问题�Ӟ��一开始对�c�M��如下代码,�怺�转变不太理解�?br />

byte b1[] = null;
       b1 = "我爱你莎�?.getBytes("gbk");
       System.out.println(new String(b1,"gbk"));
       byte b2[] = null;
       b2 = "我爱你莎�?.getBytes("utf8");
       System.out.println(new String(b2,"utf8"));
       System.out.println(new String (new String (b2,"gbk").getBytes("gbk"),"utf8"));

其实我们可以把getBytes�Q?gbk"�Q�，�q�个函数当做��unicode用gkb加密的过�E�，而new String�Q?#8221;xxx“�Q?�~�码”�Q�看成是解密的一个过�E��?br />
大家思考一下最后面的那个输出可以得到正��的�l�果吗？��Z��么？

下面我们来讨�?�Q�通过http协议下的url传输后，�~�码转化问题�?br />首先说明的是本�h本地默认�~�码是gbk�?br />我们只用Servlet�Q�不使用��M��框架比如spring�Q�因��Z��用框架时�Q�框架也有一套自��p��q��机制�Q�如下代�?br />

public class HttpEncode extends HttpServlet {
    @Override
    protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
        String str = req.getQueryString();
        System.out.println(req.getCharacterEncoding());

        String encode = null;
        try {
            encode = req.getParameter("encode");
        } catch (Exception e) {
            e.printStackTrace();
        }

        System.out.println(str);
        System.out.println(encode);

    }

}

我们分别用jetty�Q�版�?.1�Q�和resin(版本3.1.8)下容器，��试如下��h�� 127.0.0.1/test?encode=%B9%FE 其中%B9%FE为GBk的编码的汉字”�?#8220;
jetty容器下输��Zؓ

null
encode=%B9%FE
?

resin下�ؓ�Q?br />

null
encode=%B9%FE
null

换做127.0.0.1/test?encode=%E5%93%88 �Q�utf8�~�码�?#8221;�?#8220;
jetty和resin下都输出如下

null
encode=%E5%93%88
�?/span>

��Z��么会是这��P��
我们拿jetty分析�Q�在jetty的源码中�Q?br />

   public String getParameter(String name)
    {
        if (!_paramsExtracted)
            extractParameters();
        return (String) _parameters.getValue(name, 0);
    }

对应�?

extractParameters(); 部分代码

if (_queryEncoding==null)
_uri.decodeQueryTo(_baseParameters);

然后

   public void decodeQueryTo(MultiMap parameters)
    {
        if (_query==_fragment)
            return;
        _utf8b.reset();
        UrlEncoded.decodeUtf8To(_raw,_query+1,_fragment-_query-1,parameters,_utf8b);
    }

也就是如�?span style="color: #000000; ">_queryEncoding为null�Ӟ��默认是用utf8�q�行解码的。而resin也不例外�?br />jetty�?span style="color: #000000; ">_queryEncoding的值可以通过org.mortbay.jetty.Request.queryEncoding �q�个属性给赋��D��resin采用的是req.getCharacterEncoding()中的��gؓ标准�?br />要想在jetty�?127.0.0.1/test?encode=%B9%FE�Q�获取到正确的字�W�，代码如下

    protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
        String str = req.getQueryString();
        System.out.println(req.getCharacterEncoding());
        req.setAttribute("org.mortbay.jetty.Request.queryEncoding", "gbk");
        String encode = null;
        try {
            encode = req.getParameter("encode");
        } catch (Exception e) {
            e.printStackTrace();
        }

        System.out.println(str);
        System.out.println(encode);

    }

resin下只需�?br />

protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
        String str = req.getQueryString();
        req.setCharacterEncoding("gbk");
        System.out.println(req.getCharacterEncoding());
        String encode = null;
        try {
            encode = req.getParameter("encode");
        } catch (Exception e) {
            e.printStackTrace();
        }

        System.out.println(str);
        System.out.println(encode);

    }

通过上面惌��明的是，不同的容器，默认�~�码的策略是不一致的。只要我们了解编码的基础知识。通过一些封装就很容易掌控这个局面�?/div>

参考资料：

Unicode wiki: http://zh.wikipedia.org/wiki/Unicode
jetty 源码

iamct 2012-04-18 11:38 发表评论

国产中文欧美日韩在线,日韩精品一区二区三区中文不卡,日本在线观看一区二区三区

java �~�码