关于Java中文问题的几条分析原�?转自IBM)

Tue, 15 Nov 2005 07:26:00 GMT

��管关于Java中文问题的讨论已�l�相当多�?ji��n)，但由于Java的相��x(ch��ng)��术标准繁多，面向Java的Web服务器、应用服务器以及(qi��ng)JDBC数据库驱动等都没有官方的标准�Q�所以Java应用在处理中文时所存在的问题�(sh��)��仅没有消��p��且随着所选用的服务器、驱动程序以�?qi��ng)运行环境等因素的不同而变化。那么我们如何从众多现象中找出问题所在，�q�进行分析和解决呢？与大部分的讨��Z��同，本文��主要从如何预测、发现和��(g��)查问题的角度�l�出��Q�帮助开发�h员找出可能引起问题的各种源头�Q�从而更好地解决Java的中文问题�?/P>

　　引言

　　��管对于Java中文处理问题的讨论已不乏其数�Q�但�׃��Java技术涉�?qi��ng)内容广�Q�J2EE包含�?ji��n)十几种相关技术）(j��)�Q�技术供应商�J�多�Q�面向Java的Web服务器、应用服务器以及(qi��ng)JDBC数据库驱动等都没有官方的标准�Q�所以Java应用在处理中文过�E�中��Z��(ji��n)存在固有的问题外也存在随着选用的服务器�Q�驱动程序的不同而带来的Java中文问题的多变性，增加�?ji��n)问题的复杂度。那么，我们如何在这么纷�J�的现象中找到问题的症结呢？

　　Java中文问题的一般解军_��?/STRONG>

　　事实上，Java的中文问题都是由于Java应用所采用的缺省编码格式与目标或者应用所要读入字�W�的�~�码格式不同而造成的（具体参见文献1�Q�。对于如何解决Java的中文问题，通常有四�U�方法：(x��)

　　1�Q�选择JDK的中文本地化版本。尽��Java2 JDK的中文本地化版本�Q?A target=_blank>http://java.sun.com/products/jdk/1.2/chinesejdk.html�Q��ƈ不是一个官方的版本�Q�Sun公司也没有承��Z��(x��)对该本地化版本进行升�U�，但其仍不�׃ؓ(f��)一个Java中文问题的解��x(ch��ng)��案�?/P>
　　2�Q�选择合适的�~�译参数。对于Java的国际版本来�Ԍ��我们也可以在�~�译Java应用的时候通过指定��定的编码机制来实现其编译结果对中文的支持。例如，对于需要支持繁体中文和��体中文应用可以通过javac -encoding big5 sourcefile.java 和javac -encoding gb2312 sourcefile.java来编译源�E�序�?/P>
　　3�Q�通过�~�程的方式实现字�W�编码的转换代码。通过�~�程的方式来解决Java的中文问题，已经成�ؓ(f��)�?ji��n)一�U�较为普遍的做法。下面就是一�U�最常见的字�W�编码�{换函敎ͼ�其将字符的编码格式�{换�ؓ(f��)中文Windows�pȝ��的GBK�~�码形式�?/P>
public static String toChinese(String strvalue)
   {
         try{
             if(strvalue==null)
                return null;
             else
             {
                strvalue = new String(strvalue.getBytes("ISO8859_1"), "GBK");
                return strvalue;
         }
         }catch(Exception e){
               return null;
         }
   }

　　4�Q�定义字�W�输出集。对于JSP应用�Q�我们可以通过<%@ page contentType="text/html; charset=GBK" %>�?lt;%@ page contentType="text/html; charset=GB2312" %>来定义JSP��面的字�W�输出集。当�?d��ng)��我们也可以通过HTML的标�?lt;META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=gb2312">来定义字�W�的输出集�?/P>
　　存在的问�?/STRONG>

　　�Ҏ(gu��)��Ҏ(gu��)��实现的方式，我们可以��以上四�U�方法分��Z��c�，一�c�L��通过利用某些标准或者规则来实现的方法，上面�?)�?)�?�Q�都属于此类�Q�一�c�L��通过针对性的�~�程来实现的�Ҏ(gu��)��Q�上面所提的�Ҏ(gu��)��3�Q�就属于此类�?/P>
　　�׃��Ҏ(gu��)��1)�Q?)�Q?�Q�是��h��规范性的一�c�L��法，所以方法比较简单，解决�Ҏ(gu��)��也不具备较大的针�Ҏ(gu��)��，较�ؓ(f��)通用�Q�例如我们可以采用方�?�Q�的�~�译方式通过�~�译Java源文件来实现内码的预�|�，而无需考虑源码到底有哪些部分出��C��(ji��n)Java的中文处理问题，诸如输出��q��{�等�?/P>
　　但是�Q�正�׃��q�些�Ҏ(gu��)��不具备针�Ҏ(gu��)��，解决问题的方法过于统一�Q�所以在某些情况下，它们�q�不能彻底地解决Java的中文问题。�D一个非常常见的例子。在通常情况下，用户的Java应用往往需要与其它Java应用接口�q�行交互�Q�例如通过某种版本的JDBC讉K��数据库。由于JDBC的驱动所支持的编码随着提供商乃至版本的不同而不同，所以如果在数据库的输入输出�q�程中出��C��文不能正��处理问题时�Q�我们需要在数据的输入和输出�q�程做两�ơ正好相反的�~�码转换�Q�这对于�Ҏ(gu��)��1�Q�，2�Q�，4�Q�来��_(d��)��往往是无法解决的。当�?d��ng)��对于��?gu��)��2�Q�我们也可以通过采用一些技巧��来满��上面的情况�Q�一个最有效的办法就是尽量将Java应用的各个部分组件化。例如我们可以通过��数据库的读入和输出代码分解在不同的源文件上来实现分别编译，从而满��不同的字符�~�码要求。但是通常的程序设计都不太可能满��q�种要求�Q�因��U�程序的划分�l�果很可能是不合理的。例如，我们��数据库的读出和写入�Ҏ(gu��)��装��C��个类中是比较合适的一�U�设计，但如果将该类的这两个�Ҏ(gu��)��分别实现在两个文仉��则变得非�怸�合理。因此对�?�Q�，2�Q�，4�Q�方法来��_(d��)��虽然实现比较��单，但却��h��一些无法克服的�~�点。这也是那些实现��h��相对复杂的编�E�方法得以流行的原因�?/P>
　　相对于方�?�Q�，2�Q�，4�Q�来��_(d��)��Ҏ(gu��)��3�Q�具有更好的针对性和灉|��性。程序可以根据不同的情况做出灉|��的处理，在�Q何需要的地方�q�行字符的编码�{换，但是该方法的特点也对软�g的开发�h员提��Z��(ji��n)更高要求--必须能够准确的捕捉到有可能发生中文处理问题的地方�Q��ƈ做出正确的判断和处理�?/P>
　　分析的原�?/STRONG>

　　�ȝ��说来�Q�所有解决Java中文处理的方法都不是很复杂。相反的是，�׃��Java技术特别是J2EE技术涉�?qi��ng)的内容�J�多�Q�各�U�Web服务器、应用服务器以及(qi��ng)JDBC数据库驱动等参差不齐�Q�所以如何正��而及(qi��ng)时的发现应用的中文处理问题则变得相对复杂的多。那么我们如何来发现�q�些问题呢？

　　通常�Q�Java处理中文时所产生的问题都是由于用��L(f��ng)��Java应用所采用的缺省编码格式与目标或者应用所要读入字�W�的�~�码格式不同而造成的，而引赯��些不同的一个主要原因就是用��L(f��ng)��Java应用与其它应用进行了(ji��n)�~�码格式不匹配的数据交换�Q�包括直接或间接的数据输入、输出）(j��)。所以，��Z��(ji��n)�?qi��ng)时发现问题�Q�我们可以由�q�一点入手，�Ҏ(gu��)��以下的原则对应用�q�行分析�Q?/P>
　　1. 注意字符变量情况。由于变量的字符�~�码形式较�ؓ(f��)隐蔽�Q�多�ơ变量间数值的改变和运��可能会(x��)引�v字符集的改变�Q�在变量与页面所提交数据的各�U�操作中�Q�较�Ҏ(gu��)��发生不同�~�码格式字符�q�行�q�算的情��c(di��n)�?

　　2. 注意��M��形式的字�W�读入与输出。之所以要提到��M��形式�Q�是因�ؓ(f��)Java应用大多数都是作为网�l�应用开发的�Q�所以与其它语言的应用相比，Java应用需要面对网�l�世界各�U�各��L(f��ng)��字符数据交换形式。例如各�U�表单的数据提交�Q�URL形式的数据读入，�l�过加密�q�算的字�W�数据交换，�|�页控�g选择�l�果的输入，控�g内容的的昄��Q�如List控�g�Q�等�{��?

　　3. ��心(j��)使用�W�三方的�l��g和应用。由于第三方�l��g和应用的实现是非透明的，所以一般情况下�Q�我们很隑ֈ�断这些组件或驱动的缺省编码格式是什么，也无法对其进行控制。因此，在��用它们所提供的接口函数进行数据交换的时候要特别注意�Q�如果确实出��C��文无法正��处理情况，应首先检查我们自��q��代码�q�调整相关代码以适应�q�些接口�Q�因��些组件或者应用基本上不会(x��)提供调整�~�码机制的接口。必要时�Q�我们可能需要采用其它可替换的组件或者应用�?

　　4. 注意被请求对象所含有的数据输入与输出。这是非帔R��蔽的一�c�L��况，当我们的应用以对象的方式�Q�例如序列化的对象）(j��)�q�行交互�Ӟ��如果�q�个对象内部含有字符数据的处理过�E�，或者含有某些数据的输入、输出，甚至是抛��Z��D는�中文注解的异常，都可能出��C��文无法正��显�C�等问题。由于这些行为往往被封装在对象中，所以我们在�~�写�E�序�Ӟ��很容易忽略这�U�可能情��c(di��n)��ƈ且这�U�情况带有一定的不可预见性，例如我们可能不清楚这个对象会(x��)在什么时候抛��Z��么样的异常，所以这时我们就需要做一定的��试工作�?

　　5. 注意数据库的数据讉K��q�程。Java通过JDBC与数据库建立�q�接。对于JDBC驱动�E�序来说�Q�由于目前大部分的JDBC驱动�E�序�q�不是针对中文系�l�而设计的(中文数据大都采用ISO-8859-1�~�码方式)�Q�所以一般情况下在数据读写过�E�中往往都需要字�W�编码的转化。但是我们仍��用户在��用这些JDBC驱动�Ӟ��仔细阅读它的说明。如果确实无法弄清JDBC字符数据的编码到底是什么，我们的徏议是做一些必要的��试。例如下面是一�l�在��体中文Win2000�q�_��下，采用Weblogic 6.0所提供的JDBC驱动从MS SQL Server2000中正��读入中文字�W�的代码�Q�例子中�q�行�?ji��n)字�W�运��）(j��)�Q?

...
Class.forName("weblogic.jdbc.mssqlserver4.Driver").newInstance();
   conn = myDriver.connect("jdbc:weblogic:mssqlserver4", props);
      conn.setCatalog("labmanager");
     Statement st = conn.createStatement();
  //execute a query
String testStr;
String testTempStr = new String() ;
    testStr = new String(testTempStr.getBytes("ISO-8859-1"));//�~�码转化
DatabaseMetaData DBMetaData =conn.getMetaData();
  ResultSet rs = DBMetaData.getTables(null, null,null,new String[]{"TABLE"} );
  while (rs.next()){
   for(int j=1; j<=rs.getMetaData().getColumnCount(); j++){
testStr = testStr +String(rs.getObject(j).toString().getBytes("ISO-8859-1"));
   }
  }

　　然而，需要注意的是，不同的JDBC驱动对相同的数据库的支持�q�不同，而同一�c�JDBC驱动对不同的数据库的支持也不相同�Q�也��是说我们的字符转化代码在JDBC驱动改变甚至是版本变化情况下都有可能无法正确工作。例如对于上面的例子�Q�在同样的环境下改用i-net 的Una 2000 Driver Version 2.03 for MS SQL Server�Ӟ��是无法正��处理中文的。原因很��单，�q�个JDBC驱动本��n支持的就是GBK的编码机�Ӟ��所以根本就不需要做��M��的编码�{化�?

　　6. 必要的测试。由于Java中文问题的��生随着Web服务器，��览器，�q�行环境和开发工��L(f��ng)��不同都可能发生变化，所以�ؓ(f��)�?ji��n)更好的避免问题的发生，我们必须作一些针�Ҏ(gu��)��的��试。另外，在我们确实无法通过分析来确定Java的中文处理问题是否可能发生的情况下或者无法知道问题的发生是由于哪个环节（是Web服务器，��览器还是JDBC数据驱动�{�等�Q�引��L(f��ng)��时候，��试工作则变得非帔R��要。�ƈ且我们可能需要较为全面的��试�Q�例如对Web服务器，��览器和JDBC数据驱动�{�都要做��试�Q�这��h��利于我们扑և�那些隐藏在多个环节协调过�E�中所产生的问题�?/P>
　　�l�论

　　事实上，Java中文处理之所以存在问题，其根本原因是�׃��被操作的中文字符�Q�变量）(j��)的编码格式与目标的编码格式不同造成的，所有这些问题其实都是发生在字符的读入、输�?gu��)��E�中的，只要我们把握住这一环节�Q�就可以更好的发现、分析、处理和预防Java的中文问题�(sh��)��(ji��n)�?/P>

潇潇�?/a> 2005-11-15 15:26 发表评论

亚洲人成伊人成综合网久久久 ,天堂资源在线观看,国产日韩中文在线中文字幕

关于Java中文问题的几条分析原�?转自IBM)