javaEE參考

隨筆分類

隨筆檔案

相冊

student

jsp亂碼問題剖析與終極解決方案

Posted on 2009-12-17 17:20 terryxue 閱讀(1544) 評論(0) 編輯收藏所屬分類: java

服務(wù)器返回亂碼頁面，請求的數(shù)據(jù)發(fā)送到服務(wù)器后取出來是亂碼，以上兩個(gè)問題是web開發(fā)人員經(jīng)常遇到的問題，解決這類問題需要理解亂碼問題的根源所在。

1. 字符編碼
字符是以二進(jìn)制編碼的形式保存在存儲(chǔ)器中的，如：“我”這個(gè)字，可以用gbk的方式保存(用字節(jié)表示是[-50, -46])，也可以用utf-8的方式保存(用字節(jié)表示是[-26, -120, -111])。程序在讀取數(shù)據(jù)塊時(shí)需要一個(gè)字節(jié)一個(gè)字節(jié)的讀取，然后將字節(jié)轉(zhuǎn)換為字符，顯然如果程序不知道字節(jié)是表示的什么編碼的字符，讀出來就會(huì)出問題，這就如同你說了一句話，我如果事先不知道你說的將是什么語言，就沒法去翻譯了，如果你說的英語，我以為是日語，然后按日語的方式來理解到我的主觀意識(shí)，顯然結(jié)果就是不知你在說什么了，就成了我們程序中的亂碼。所以對于前面我所表示的字節(jié)數(shù)組byte[] data = {-26, -120, -111},我們必須這樣做才能得到正確的字符: String s = new String(data, "utf-8")，（注：這里用了字符串，因?yàn)樽址褪怯梢粋€(gè)個(gè)字符組成的），如果我們不指定參數(shù)里面的"utf-8"，那么系統(tǒng)就會(huì)用操作系統(tǒng)默認(rèn)的編碼了，這可能是gbk或是什么任何編碼。

2. jsp服務(wù)器返回亂碼頁面
2.1 pageEncoding
在jsp頁面的page指令中我們指定了pageEncoding屬性，這個(gè)屬性就是告訴jsp容器如何讀取這個(gè)jsp頁面，所以這個(gè)屬性必須與jsp頁面保存的編碼保持一致。也就是說，如果你頁面的編碼保存為gbk, 而pageEncoding設(shè)置成了utf-8，則jsp容器在讀這個(gè)jsp頁面的時(shí)候就會(huì)出錯(cuò)(如果存在非英文字符的話)。jsp容器讀jsp的目的是將其翻譯成java代碼，所以如果讀錯(cuò)了jsp頁面，翻譯出來的java代碼也就會(huì)出錯(cuò)，如果這種錯(cuò)誤影響了java文件的語法，就會(huì)在訪問時(shí)出現(xiàn)無法編譯jsp的語法錯(cuò)誤，如果沒有影響到語法，就會(huì)出現(xiàn)最終顯示的html頁面上有亂碼的錯(cuò)誤。所以如果遇到顯示亂碼，則檢查pageEncoding是否正確。
2.2 contentType
page指令中的contentType屬性用于指定返回給瀏覽器的數(shù)據(jù)的文檔類型，服務(wù)器通過http頭信息返回給瀏覽器這個(gè)信息，所以在瀏覽器 html代碼中用戶是看不到的。同時(shí)contentType屬性還可以指定頁面的編碼，即服務(wù)器即以什么編碼發(fā)送頁面數(shù)據(jù)。比如說中文數(shù)據(jù)，可以用gbk 或utf-8的方式來發(fā)送，這個(gè)編碼跟jsp頁面的編碼沒有關(guān)系，只要設(shè)定的編碼支持頁面中的字符就行了。相同于有了一個(gè)字符串s="中國人",然后用 s.getBytes("gbk")的方式來發(fā)送s。所以由于contentType錯(cuò)誤出現(xiàn)亂碼的概念不高，但也要注意一下，比如說如果設(shè)置成了"iso8859-1"，則瀏覽器就會(huì)顯示亂碼了。contentType還有一個(gè)用，就是瀏覽器將會(huì)依據(jù)這個(gè)編碼來顯示頁面，在IE下點(diǎn)右鍵，然后選擇“編碼”，你就可以注意到頁面是以什么編碼顯示的了。
2.3 如果是servlet返回的結(jié)果
上面說的是jsp，如果servlet的話就要注意設(shè)置response.setCharacterEncoding(""),如果沒有設(shè)置，服務(wù)器會(huì)默認(rèn)為是iso8859-1，設(shè)置后得到的writer（即response.getWriter()）對象，就會(huì)依據(jù)這個(gè)編碼來向客戶端寫數(shù) 據(jù)，writer對象的構(gòu)造與以下方式類似：PrintWriter pw = new PrinterWriter(new OutputStreamWriter(socket.getOutputStream(), "編碼"))，這里提到了通過socket得到輸出流，不明白的話可以參考我的另一篇文章。pw.write("你好")，實(shí)際上就是先通過byte[] data = "你好".getBytes("編碼"),然后將data寫給客戶端。
)

3. 服務(wù)器得到客戶端傳過來的數(shù)據(jù)為亂碼
3.1 通用解決方案
String param = request.getParameter("paramName")，如果瀏覽器傳過來的為中文，則取出來的數(shù)據(jù)將是亂碼。為什么呢？因?yàn)榭蛻舳酥荒軐? 數(shù)據(jù)的編碼傳給服務(wù)器，如[-26, -120, -111]，但服務(wù)器并不知道這是什么字符集的編碼，于是假定為iso8859-1, 用這種方式構(gòu)造了字符串s = new String(data, "iso8859-1")，顯然這樣肯定是亂碼。解決方案很簡單，我們得到值param后，用byte data[] = param.getBytes("iso8859-1"),這樣data就是客戶端傳過來的真實(shí)編碼，然后我們再重新創(chuàng)建字符串：param = new String(data, "正確的編碼");
3.2 POST請求
如于post請求處理起來更簡單，get請求與post請求向服務(wù)器發(fā)送數(shù)據(jù)的方式不一樣，get請求的參數(shù)是通過HTTP頭信息中的第一行數(shù)據(jù)發(fā)送的，是URI的一部分，而post請求則是在發(fā)送完HTTP頭信息后作為單獨(dú)的數(shù)據(jù)塊發(fā)送的。因此對于get請求的參數(shù)，我們在使用request之前服務(wù)器已經(jīng)讀出來了，已經(jīng)是亂碼了，只能用前面的方案，但對于post請求的數(shù)據(jù)，我們在調(diào)用getParameter或getReader之前，服務(wù)器并沒有去處理，所以我們可以在getParameter之前先告訴服務(wù)器正確的編碼，通過request.setCharacterEncoding("正確的編碼")，然后再讀取參數(shù)。

4 AJax
對于ajax請求注意要用utf-8編碼，request和response都需要使用utf-8

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: spring+hibernate連接泄漏之殤 eclipse+JUnit測試Seam glassfishv2中ejb的定義與調(diào)用通過java抓取任何指定網(wǎng)頁的數(shù)據(jù) 利用java構(gòu)建http服務(wù)器 jsp亂碼問題剖析與終極解決方案

javaEE參考

隨筆分類

隨筆檔案

相冊

最新隨筆

最新評論

jsp亂碼問題剖析與終極解決方案

公告

常用鏈接

1號店

評論排行榜

閱讀排行榜