首頁新隨筆新文章聯(lián)系聚合

posts - 13,comments - 44,trackbacks - 0

2013年7月

>

日

一

二

三

四

五

六

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

搜索

閱讀排行榜

評(píng)論排行榜

get和post亂碼解決

在javaweb開發(fā)過程中g(shù)et和post亂碼是一個(gè)老生常談的話題了，相信人人都遇到過。網(wǎng)上的文章也很多，但往往是看的越多就越糊涂，有些東西只有自己了然于心才能真正地明白。下面就寫一篇文章，就亂碼產(chǎn)生的過程分析一下。
為什么會(huì)產(chǎn)生亂碼？

1. 為什么會(huì)產(chǎn)生亂碼？

因?yàn)闉g覽器不允許提交非ASCII字符，如果提交了非ASCII，則瀏覽器自動(dòng)對(duì)其進(jìn)行編碼，將它們轉(zhuǎn)換為ASCII字符。根據(jù)瀏覽器的不同，轉(zhuǎn)換時(shí)使用的編碼也不同，比如有些瀏覽器會(huì)使用utf-8進(jìn)行編碼，而有些會(huì)使用gbk進(jìn)行編碼。

2. 瀏覽器為什么不允許提交非ASCII字符？

以下是我個(gè)人觀點(diǎn)，僅供參考。

因?yàn)闉g覽器和服務(wù)器通信，傳輸?shù)亩际亲止?jié)。而我們?cè)陧撁嫣峤坏亩际亲址詾g覽器底層就有一個(gè)將字符轉(zhuǎn)換為字節(jié)的過程，這個(gè)過程涉及到編碼，瀏覽器到底是用utf-8、gbk還是iso-8859-1將字符轉(zhuǎn)換為字節(jié)呢？我想應(yīng)該是iso-8859-1，因?yàn)檫@是西歐默認(rèn)使用的編碼。何況，也沒有任何理由使用前兩種編碼格式。但是iso-8859-1編碼是不能識(shí)別中文以及其他非ASCII字符的，所以如果字符中存在這類字符，那么將字符轉(zhuǎn)換為字節(jié)的過程中勢(shì)必會(huì)產(chǎn)生亂碼。為了避免這種情況的發(fā)生，瀏覽器自動(dòng)對(duì)非ASCII字符進(jìn)行了編碼，將這類字符轉(zhuǎn)換為ASCII字符，這樣就能避免亂碼問題。

3. GET和POST提交表單，分別根據(jù)什么對(duì)非ASCII字符進(jìn)行編碼？

GET：

情況比較復(fù)雜，不同瀏覽器也不一樣，有的使用gbk，有的使用utf-8不好一概而論。

POST：

瀏覽器會(huì)根據(jù)網(wǎng)頁編碼對(duì)表單中的數(shù)據(jù)編碼。比如我們?cè)?/span>jsp頁面第一行所寫的：<%@page contentType="text/html;charset=UTF-8"%>。那么這個(gè)網(wǎng)頁響應(yīng)給客戶端后使用的就是utf-8編碼，那么post時(shí)使用的也是這個(gè)編碼。

編碼后的格式可以參考java中的URLEncoder.encode方法編碼的結(jié)果。

4. 服務(wù)器底層如何處理提交的數(shù)據(jù)。

上面2已經(jīng)提到，客戶端和服務(wù)器端傳輸?shù)氖亲止?jié)，那么服務(wù)器端接收到的原始數(shù)據(jù)就是字節(jié)。但是我們的程序通常需要從服務(wù)器獲取字符，而不是字節(jié)，所以服務(wù)器端必須將字節(jié)轉(zhuǎn)換為字符。這里也涉及編碼，服務(wù)器采取什么編碼方式將字節(jié)轉(zhuǎn)換為字符？我想也是iso-8859-1，這樣和客戶端的編碼方式一致，不會(huì)產(chǎn)生亂碼，相當(dāng)于一個(gè)還原字符的過程。這里有個(gè)問題，比如客戶端發(fā)送：name=%D6%D0%B9%FA，那么服務(wù)器端還原后也是：name=%D6%D0%B9%FA。那么我們使用request.getParameter(“name”)如何能得到正確的值呢？難道要我們自己再進(jìn)行轉(zhuǎn)換？答案是：NO。根據(jù)Servlet規(guī)范，Servlet中獲取數(shù)據(jù)的方法會(huì)按照指定的字符集解碼。指定的字符集是什么？默認(rèn)是iso-8859-1。正是因?yàn)槭褂昧?/span>iso-8859-1解碼我們發(fā)送的參數(shù)，導(dǎo)致了亂碼的產(chǎn)生，這里才是產(chǎn)生亂碼的源頭。具體解碼的過程可以看看java的URLDecode.decode方法。既然知道了產(chǎn)生亂碼的原因是因?yàn)榉?wù)器默認(rèn)使用iso-8859-1解碼，那我們就得想辦法更改服務(wù)器使用的解碼編碼。好在服務(wù)器已經(jīng)提供給我們修改的方式了，我們可以在服務(wù)器中進(jìn)行配置，比如Tomcat可以在server.xml中進(jìn)行配置，比如：URIEncoding="GBK"這樣服務(wù)器就會(huì)使用gbk編碼解碼，這種方式主要針對(duì)GET提交的數(shù)據(jù)，對(duì)于POST更常用的是request.setCharacterEncoding(String charset)設(shè)置解碼編碼。

5. 為了避免亂碼，客戶端應(yīng)該如何做？

GET：

對(duì)于含有非ASCII字符的URL自己進(jìn)行編碼，比如使用javascript中的方法進(jìn)行編碼。這樣就不需要瀏覽器為我們編碼了，從而解決了瀏覽器編碼的不確定性。

POST：

只要正確設(shè)置網(wǎng)頁編碼即可。

posted on 2013-07-27 16:56 zhangchao 閱讀(4401) 評(píng)論(2) 編輯收藏所屬分類: web開發(fā)

FeedBack:

# re: get和post亂碼解決

2013-07-28 12:03 | rox

mark一下，順便借寶地貼個(gè)Tomcat官方解釋的地址。呵呵！
http://wiki.apache.org/tomcat/FAQ/CharacterEncoding 回復(fù) 更多評(píng)論

# re: get和post亂碼解決

2013-07-29 09:32 | 愛拼娛樂城

很討厭亂碼哦回復(fù) 更多評(píng)論

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: get和post亂碼解決深入研究Servlet線程安全性問題 session cookie詳解.