The NoteBook of EricKong

:: 管理

611 Posts :: 1 Stories :: 190 Comments :: 0 Trackbacks

有一個UTF-8編碼的文本文件，用FileReader讀取到一個字符串，然后轉換字符集：str=new String(str.getBytes(),"UTF-8");結果大部分中文顯示正常，但最后仍有部分漢字顯示為問號！
Java代碼
public static List<String> getLines(String fileName){
        List<String> lines=new ArrayList<String>();
        try {
            BufferedReader br = new BufferedReader(new FileReader(fileName));
            String line = null;
            while ((line = br.readLine()) != null) {
                lines.add(new String(line.getBytes("GBK"),"UTF-8"));
            }
            br.close();
        } catch (FileNotFoundException e) {
        }catch (IOException e) {}
        return lines;
    }

public static List<String> getLines(String fileName){
  List<String> lines=new ArrayList<String>();
  try {
   BufferedReader br = new BufferedReader(new FileReader(fileName));
   String line = null;
   while ((line = br.readLine()) != null) {
    lines.add(new String(line.getBytes("GBK"),"UTF-8"));
   }
   br.close();
  } catch (FileNotFoundException e) {
  }catch (IOException e) {}
  return lines;
}

文件讀入時是按OS的默認字符集即GBK解碼的，我先用默認字符集GBK編碼str.getBytes(“GBK”)，此時應該還原為文件中的字節序列了，然后再按UTF-8解碼，生成的字符串按理說應該就應該是正確的。

為什么結果中還是有部分亂碼呢？
問題出在FileReader讀取文件的過程中，FileReader繼承了InputStreamReader，但并沒有實現父類中帶字符集參數的構造函數，所以FileReader只能按系統默認的字符集來解碼，然后在UTF-8 -> GBK -> UTF-8的過程中編碼出現損失，造成結果不能還原最初的字符。

原因明確了，這個問題解決起來并不困難，用InputStreamReader代替FileReader，InputStreamReader isr=new InputStreamReader(new FileInputStream(fileName),"UTF-8");這樣讀取文件就會直接用UTF-8解碼，不用再做編碼轉換。
Java代碼
public static List<String> getLines(String fileName){
        List<String> lines=new ArrayList<String>();
        try {
            BufferedReader br=new BufferedReader(new InputStreamReader(new FileInputStream(fileName),"UTF-8"));
            String line = null;
            while ((line = br.readLine()) != null) {
                lines.add(line);
            }
            br.close();
        } catch (FileNotFoundException e) {
        }catch (IOException e) {}
        return lines;
    }

posted on 2012-04-28 21:00 Eric_jiang 閱讀(5531) 評論(2) 編輯收藏所屬分類: Java

Feedback

# re: FileReader讀取中文txt文件編碼丟失問題（亂碼） 2012-04-29 20:12 Eric_jiang

http://code.google.com/p/sqlite-manager/ 回復更多評論

# re: FileReader讀取中文txt文件編碼丟失問題（亂碼） 2013-02-20 15:12 網絡記事本

FileReader 功能還是不行。
謝謝指點，我已經更換為 FileInputStream 了，這個支持設置編碼。回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: JDK內置工具使用 Java線程Dump分析工具--jstack JVM性能調優監控工具jps、jstack、jmap、jhat、jstat使用詳解 AVAMAIL發送郵件給多個收件人 Java安全通信：HTTPS與SSL Servlet作為代理實現跨域訪問 java中的xml解析時jaxp.properties文件問題 Java /Jsp 執行操作系統命令 windows/Linux 10個基于Java的CMS網站內容管理系統 Java讀取properties配置文件時，中文亂碼解決方法 .

The NoteBook of EricKong

常用鏈接

留言簿(11)

我參與的團隊

隨筆分類

隨筆檔案

FLEX

MaimFrame

優秀站點

嵌入式

巴西葡語翻譯

常用鏈接

攝影

網站推廣

網絡思維

網絡資源

育兒資料

搜索

最新評論

閱讀排行榜

評論排行榜

Feedback