yegucheng

          BlogJava 首頁 新隨筆 聯系 聚合 管理
            9 Posts :: 0 Stories :: 8 Comments :: 0 Trackbacks

          筆者的場景是這樣的,筆者使用code smith作為代碼生成工具,并在Eclipse中做插件開發,code smith天生
          對GB的支持比較弱,只能生成UTF-8編碼,這在Eclipse開發的過程中不會存在問題,但是在使用Eclipse的導出
          功能時,Eclipse底層使用ANT的執行方式,ANT的默認字符集默認使用當前系統的字符集,這時在編譯導出的時候,
          會出現字符無法識別的問題,導致導出或者打包失敗。
           一種方式可以改變Eclipse工程的默認字符集,以及自動生成的ant配置文件中字符集的配置,這對于單個工程是有
          效的,但處理工程間依賴時,被依賴的工程同樣會出現字符集問題,即使被依賴工程設定ant的字符集。
           另一種方式,是手工轉換,講UTF-8的字符集轉換為GBK的,微軟的網站提供了一個批量轉換工具,但是在轉換之后,
          文檔的最前面還會有可能存在多于字符,并導致ant打包失敗
           最后,沒辦法自己寫了一個字符集轉換工具,因為是自己用,所以夠用就行,下面是轉換部分的代碼,實現UTF8到
          GBK的轉換,其他轉換可以對代碼稍作修改。

           
          import org.apache.commons.lang.ArrayUtils;

          public class EncodeRepairTool {
           public static final byte[] bPre = "EFBBBF".getBytes();
           private int i = 0;

           /**
            * @param args
            */
           public static void main(String[] args) {  
            String path = "D:\\eclipse-dev-3.3\\workspace";
            File file = new File(path);
            EncodeRepairTool scanner = new EncodeRepairTool();
            scanner.scanFolder(file);

           }

           

           public void scanFolder(File file) {
            if (file.isDirectory()) {
             File[] files = file.listFiles();
             for (int i = 0; i < files.length; i++) {
              scanFolder(files[i]);
             }
            } else if (file.getName().endsWith(".java")) {
             removePreCode(file);
            }
           }

           private void removePreCode(File file) {
            try {
             FileInputStream fis = new FileInputStream(file);
             int size = fis.available();
             if (size < 24) {
              return;
             }
             i ++ ;
             byte[] bs = new byte[size];
             fis.read(bs);
             byte[] tbs = ArrayUtils.subarray(bs, 0, 3);
             byte[] tbs1 = new byte[] { new Integer(0xEF).byteValue(),
               new Integer(0xBB).byteValue(),
               new Integer(0xBF).byteValue() };
             boolean bol = false;
             if (tbs[0] == tbs1[0] && tbs[1] == tbs1[1] && tbs[2] == tbs1[2]) {
              bol = true;
             }
             fis.close();
             if (!bol) {
              System.out.println("  " + i + " : " + file.getName());
              tbs = bs;
             }
             else {
              System.out.println("**" + i + " : " + file.getName());
              tbs = ArrayUtils.subarray(bs, 3, size);
              
             }   
             InputStreamReader reader = new InputStreamReader(new ByteArrayInputStream(tbs), "UTF-8");
             BufferedReader br = new BufferedReader(reader);
             StringBuffer buffer = new StringBuffer();
             String s = br.readLine();
             while (s != null) {
              buffer.append(s);
              buffer.append("\n");
              s =  br.readLine();
             }
             reader.close();
             byte[] nbs = buffer.toString().getBytes("GBK");   
             FileOutputStream fos = new FileOutputStream(file);
             fos.write(nbs);
             fos.flush();
             fos.close();
             
            } catch (FileNotFoundException e) {
             // TODO 自動生成 catch 塊
             e.printStackTrace();
            } catch (IOException e) {
             // TODO 自動生成 catch 塊
             e.printStackTrace();
            }

           }

          }

          posted on 2007-10-26 10:01 yegucheng 閱讀(2235) 評論(5)  編輯  收藏 所屬分類: Eclipse插件開發java技術

          Feedback

          # re: 使用Java API操作文件的字符集 2007-10-26 13:18 bitiwyh
          好像使用ant copy可以指定讀入/寫出出的encoding的.

          encoding/outputencoding.
          不知道行不行.  回復  更多評論
            

          # re: 使用Java API操作文件的字符集 2007-10-26 13:31 yegucheng
          可以的,ant的javac也可以指定字符集
          但是有三個問題:
          1. 通過Eclipse的自動生成工具不會生成encoding以及outEncoding的參數(沒有找到修改Eclipse相關模板的地方)
          2. 當字符集不正確時,編譯的時候會無法解析java 源文件,必須指定javac的運行參數(印象中好像是在javac)
          3. Eclipse的插件工程存在依賴關系時,當編譯一個插件,依賴到工作區的其他插件時,會同時進行編譯,這時候ant中即使制定了參數也不會生效,會拋出字符集錯誤

            回復  更多評論
            

          # re: 使用Java API操作文件的字符集 2007-10-26 13:33 yegucheng
          當然如果,是在單個的java工程下,使用ant會簡單很多  回復  更多評論
            

          # re: 使用Java API操作文件的字符集 2007-10-28 16:06 bitiwyh
          哦,我的意思不是說使用ant javac.
          javac 是可以指定編碼的.

          -
          我是說,用ant copy
          將code smith生成的代碼,使用ant copy --> Eclipse工程目錄.

            回復  更多評論
            

          # re: 使用Java API操作文件的字符集 2007-10-29 09:16 yegucheng
          呵呵,確實可以,我開始領會錯你的意思了。
          我首先是從微軟的網站下載的轉換工具,結果發現編譯還是有問題(文檔前端的首字符還是沒有去掉),時間緊,就自己寫了一個  回復  更多評論
            

          主站蜘蛛池模板: 阳山县| 建湖县| 西藏| 丰顺县| 凭祥市| 咸阳市| 开鲁县| 兴山县| 奉新县| 德庆县| 砚山县| 乐安县| 威海市| 望谟县| 大新县| 怀化市| 石门县| 神农架林区| 子洲县| 剑川县| 孟州市| 西丰县| 汉沽区| 伊宁市| 云龙县| 青州市| 通州区| 平南县| 五莲县| 克拉玛依市| 黑水县| 上蔡县| 维西| 常州市| 凯里市| 泊头市| 拜泉县| 博罗县| 盐亭县| 从江县| 嵩明县|