瘋狂

          STANDING ON THE SHOULDERS OF GIANTS
          posts - 481, comments - 486, trackbacks - 0, articles - 1
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          日歷

          <2010年6月>
          303112345
          6789101112
          13141516171819
          20212223242526
          27282930123
          45678910

          公告

          公眾號:
          QQjava交流群:51374316



          相冊

          搜索

          •  

          積分與排名

          • 積分 - 2844325
          • 排名 - 2

          最新隨筆

          jsp編碼問題

          Posted on 2010-06-01 17:31 瘋狂 閱讀(3146) 評論(0)  編輯  收藏 所屬分類: web

          轉載出處:http://blog.csdn.net/yzhz 
          一、問題:
                  編碼問題是JAVA初學者在web開發過程中經常會遇到問題,網上也有大量相關的文章介紹,但其中很多文章并沒有對URL中使用了中文等非ASCII的字 符造成服務器后臺程序解析出現亂碼的問題作出準確的解釋和說明。本文將詳細介紹由于在URL中使用了中文等非ASCII的字符造成亂碼的問題。

          1、在URL中中文字符通常出現在以下兩個地方:
          (1)、Query String中的參數值,比如http://search.china.alibaba.com/search/offer_search.htm?keywords=中國
          (2)、servlet path,比如:http://search.china.alibaba.com/selloffer/中國.html


          2、出現亂碼問題的原因主要是以下幾方面:
          (1)、瀏覽器:我們的客戶端(瀏覽器)本身并沒有遵循URI編碼的規范(http://www.w3.org/International/O-URL-code.html)。
          (2)、Servlet服務器:Servlet服務器的沒有正確配置。
          (3)、開發人員并不了解Servlet的規范和API的含義。

          二、基礎知識:
          1、一個http請求經過的幾個環節:
          瀏覽器(ie firefox)【get/post】------------>Servlet服務器------------------------------->瀏覽器顯示
                                         編碼                 解碼成unicode,然后將顯示的內容編碼        解碼
          (1) 瀏覽器把URL(以及post提交的內容)經過編碼后發送給服務器。
          (2) 這里的Servlet服務器實際上指的是由Servlet服務器提供的servlet實現ServletRequestWrapper,不同應用服務器的 servlet實現不同,這些servlet的實現把這些內容解碼轉換為unicode,處理完畢后,然后再把結果(即網頁)編碼返回給瀏覽器。
          (3) 瀏覽器按照指定的編碼顯示該網頁。

                  當對字符串進行編碼和解碼的時候都涉及到字符集,通常使用的字符集為ISO8859-1、GBK、UTF-8、UNICODE。


          2、URL的組成:
          域名:端口/contextPath/servletPath/pathInfo?queryString
          說明:

          1、ContextPath是在Servlet服務器的配置文件中指定的。
          對于weblogic:
          contextPath是在應用的weblogic.xml中配置。
           <context-root>/</context-root>
           
          對于tomcat:
          contextPath是在server.xml中配置。
          <Context path="/" docBase="D:/server/blog.war" debug="5" reloadable="true" crossContext="true"/>

          對于jboos:
          contextPath是在應用的jboss-web.xml中配置。
          <jboss-web>
              <context-root>/</context-root>
          </jboss-web>

          2、ServletPath是在應用的web.xml中配置。
          <servlet-mapping>
              <servlet-name>Example</servlet-name>
              <url-pattern>/example/*</url-pattern>
          </servlet-mapping>

          2、Servlet API
          我們使用以下servlet API獲得URL的值及參數。
          request.getParameter("name");         // 獲得queryString的參數值(來自于get和post),其值經過Servlet服務器URL Decode過的
          request.getPathInfo();                // 注意:pathinfo返回的字符串是經過Servlet服務器URL Decode過的。
          requestURI = request.getRequestURI(); // 內容為:contextPath/servletPath/pathinfo 瀏覽器提交過來的原始數據,未被Servlet服務器URL Decode過。


          3、開發人員必須清楚的servlet規范:
          (1) HttpServletRequest.setCharacterEncoding()方法 僅僅只適用于設置post提交的request body的編碼而不是設置get方法提交的queryString的編碼。該方法告訴應用服務器應該采用什么編碼解析post傳過來的內容。很多文章并沒 有說明這一點。
          (2) HttpServletRequest.getPathInfo()返回的結果是由Servlet服務器解碼(decode)過的。
          (3) HttpServletRequest.getRequestURI()返回的字符串沒有被Servlet服務器decoded過。
          (4) POST提交的數據是作為request body的一部分。
          (5) 網頁的Http頭中ContentType("text/html; charset=GBK")的作用:
             (a) 告訴瀏覽器網頁中數據是什么編碼;
             (b) 表單提交時,通常瀏覽器會根據ContentType指定的charset對表單中的數據編碼,然后發送給服務器的。
             這里需要注意的是:這里所說的ContentType是指http頭的ContentType,而不是在網頁中meta中的ContentType。


          三、下面我們分別從瀏覽器和應用服務器來舉例說明:
          URL:http://localhost:8080/example/中國?name=中國
          漢字   編碼      二進制表示
          中國   UTF-8     0xe4 0xb8 0xad 0xe5 0x9b 0xbd[-28, -72, -83, -27, -101, -67]
          中國   GBK       0xd6 0xd0 0xb9 0xfa[-42, -48, -71, -6]
          中國   ISO8859-1 0x3f,0x3f[63, 63]信息失去


          (一)、瀏覽器
          1、GET方式提交,瀏覽器會對URL進行URL encode,然后發送給服務器。
          (1) 對于中文IE,如果在高級選項中選中總以UTF-8發送(默認方式),則PathInfo是URL Encode是按照UTF-8編碼,QueryString是按照GBK編碼。
          http://localhost:8080/example/中國?name=中國
          實際上提交是:
          GET /example/%E4%B8%AD%E5%9B%BD?name=%D6%D0%B9%FA

          (1) 對于中文IE,如果在高級選項中取消總以UTF-8發送,則PathInfo和QueryString是URL encode按照GBK編碼。
          實際上提交是:
          GET /example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

          (3) 對于中文firefox,則pathInfo和queryString都是URL encode按照GBK編碼。
          實際上提交是:
          GET /example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

          很顯然,不同的瀏覽器以及同一瀏覽器的不同設置,會影響最終URL中PathInfo的編碼。對于中文的IE和FIREFOX都是采用GBK編碼QueryString。

          小結:解決方案:
          1、URL中如果含有中文等非ASCII字符,則瀏覽器會對它們進行URLEncode。為了避免瀏覽器采用了我們不希望的編碼,所以最好不要在URL中直接使用非ASCII字符,而采用URL Encode編碼過的字符串%.
          比如:
          URL:http://localhost:8080/example/中國?name=中國
          建議:
          URL:http://localhost:8080/example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

          2、我們建議URL中PathInfo和QueryString采用相同的編碼,這樣對服務器端處理的時候會更加簡單。

          2、還有一個問題,我發現很多程序員并不明白URL Encode是需要指定字符集的。不明白的人可以看看這篇文檔:http://gceclub.sun.com.cn/Java_Docs/html/zh_CN/api/java/net/URLEncoder.html

          2、 POST提交
                  對于POST方式,表單中的參數值對是通過request body發送給服務器,此時瀏覽器會根據網頁的ContentType("text/html; charset=GBK")中指定的編碼進行對表單中的數據進行編碼,然后發給服務器。
          在服務器端的程序中我們可以通過Request.setCharacterEncoding() 設置編碼,然后通過request.getParameter獲得正確的數據。

          解決方案:
          1、從最簡單,所需代價最小來看,我們對URL以及網頁中的編碼使用統一的編碼對我們來說是比較合適的。
          如果不使用統一編碼的話,我們就需要在程序中做一些編碼轉換的事情。這也是我們為什么看到有網絡上大量的資料介紹如何對亂碼進行處理,其中很多解決方案都只是一時的權宜之計,沒有從根本上解決問題。


          (二)、Servlet服務器
                  Servlet服務器實現的Servlet遇到URL和POST提交的數據中含有%的字符串,它會按照指定的字符集解碼。下面兩個Servlet方法返回的結果都是經過解碼的:
          request.getParameter("name");
          request.getPathInfo();

          這里所說的"指定的字符集"是在應用服務器的配置文件中配置。

          (1) tomcat服務器
          對于tomcat服務器,該文件是server.xml
          <Connector port="8080" protocol="HTTP/1.1"
                         maxThreads="150" connectionTimeout="20000"
                         redirectPort="8443" URIEncoding="GBK"/>
          URIEncoding告訴服務器servlet解碼URL時采用的編碼。

          <Connector port="8080" ... useBodyEncodingForURI="true" />
          useBodyEncodingForURI告訴服務器解碼URL時候需要采用request body指定的編碼。

          (2) weblogic服務器
          對于weblogic服務器,該文件是weblogic.xml
          <input-charset>
            <java-charset-name>GBK</java-charset-name>
          </input-charset>

          (三)瀏覽器顯示
                  瀏覽器根據http頭中的ContentType("text/html; charset=GBK"),指定的字符集來解碼服務器發送過來的字節流。我們可以調用 HttpServletResponse.setContentType()設置http頭的ContentType。

          總結:
          1、URL中的PathInfo和QueryString字符串的編碼和解碼是由瀏覽器和應用服務器的配置決定的,我們的程序不能設置,不要期望用request.setCharacterEncoding()方法能設置URL中參數值解碼時的字符集。
          所以我們建議URL中不要使用中文等非ASCII字符,如果含有非ASCII字符的話要使用URLEncode編碼一下,比如:
          http://localhost:8080/example1/example/中國
          正確的寫法:
          http://localhost:8080/example1/example/%E4%B8%AD%E5%9B%BD
          并且我們建議URL中不要在PathInfo和QueryString同時使用非ASCII字符,比如
          http://localhost:8080/example1/example/中國?name=中國
          原因很簡單:不同瀏覽器對URL中PathInfo和QueryString編碼時采用的字符集不同,但應用服務器對URL通常會采用相同的字符集來解碼。

          2、我們建議URL中的URL Encode編碼的字符集和網頁的contentType的字符集采用相同的字符集,這樣程序的實現就很簡單,不用做復雜的編碼轉換。

          -----自己的一些總結:

          jsp編碼相關-----------------------------
          1. pageEncoding: 只是指明了 JSP 頁面本身的編碼格式,跟頁面顯示的編碼沒有關系;
              容器在讀取(文件)或者(數據庫)或者(字符串常量)時將起轉化為內部使用的 Unicode,而頁面顯示的時候將
              內部的Unicode轉換為contentType指定的編碼后顯示頁面內容;
              如果pageEncoding屬性存在,那么JSP頁面的字符編碼方式就由pageEncoding決定,
              否則就由contentType屬性中的charset決定,如果charset也不存在,JSP頁面的字符編碼方式就采用
              默認的ISO-8859-1。
              2. contentType: 指定了MIME類型和JSP頁面回應時的字符編碼方式。MIME類型的默認值是“text/html”;
              字符編碼方式的默認值是“ISO-8859-1”. MIME類型和字符編碼方式由分號隔開;
              3. pageEncoding和contentType的關系:
                  1. pageEncoding的內容只是用于jsp輸出時的編碼,不會作為header發出去的; 是告訴web Server
                      jsp頁面按照什么編碼輸出,即web服務器輸出的響應流的編碼;
                 2. 第一階段是jsp編譯成.java,它會根據pageEncoding的設定讀取jsp,結果是由指定的編碼方案翻譯
                      成統一的UTF-8 JAVA源碼(即.java).
                 3. 第二階段是由JAVAC的JAVA源碼至java byteCode的編譯,不論JSP編寫時候用的是什么編碼方案,
                      經過這個階段的結果全部是UTF-8的encoding的java源碼.JAVAC用UTF-8的encoding讀取
                      java源碼,編譯成UTF-8 encoding的二進制碼(即.class),這是JVM對常數字串在二進制碼
                      (java encoding)內表達的規范.
                 4. 第三階段是Tomcat(或其的application container)載入和執行階段二的來的JAVA二進制碼,
                      輸出的結果,也就是在客戶端見到的,這時隱藏在階段一和階段二的參數contentType就發揮了功效   
              4. 和contentType效果一樣的設置方式還有 html頁面charset, response.setCharacterEncoding(),
                  response.setContentType(),response.setHeader(); response.setContentType(),
                  response.setHeader();優先級最好,其次是response.setCharacterEncoding();再者是
                  <%@page contentType="text/html; chareset=gbk"%>,最后是<meta http-equiv="content-type"
                  content="text/html; charset=gb2312" />.
              5. web頁面輸入編碼: 在設置頁面編碼<%@page contentType="text/html; chareset=gbk"%>的同時,也就指定了頁面的輸入編碼;
                  如果頁面的顯示被設置為UTF-8,那么用戶所有的頁面輸入都會按照 UTF-8 編碼; 服務器端程序在讀
                  取表單輸入之前要設定輸入編碼;
                  表單被提交后,瀏覽器會將表單字段值轉換為指定字符集對應的字節值,然后根據 HTTP 標準 URL
                  編碼方案對結果字節進行編碼.但是頁面需要告訴服務器當前頁面的編碼方式;
                  request.setCharacterEncoding(),能修改Serverlet獲取請求的編碼,response.setCharacterEncoding(),
                  能修改Serverlet返回結果的編碼.
              6;對于get方法表單通過設置 response.setCharacterEncoding(), 和request.setCharacterEncoding("utf-8")無效,
           get有長度限制,最長不超過2048字節(1024個漢字)
                

          注意編碼要在獲取寫通道之前設置:
          response.setContentType("text/html;charset=gbk");
          PrintWriter out = response.getWriter();
          如果寫成如下將導致編碼設置無效:
          PrintWriter out = response.getWriter();
          response.setContentType("text/html;charset=gbk");
          在設置編碼之前獲取度通道將導致后期設置編碼無效
          System.out.println("997:"+request.getParameter("ta"));
          request.setCharacterEncoding("utf-8");
          System.out.println("999:"+request.getParameter("ta"));
          正確如下:
          request.setCharacterEncoding("utf-8");
          System.out.println("999:"+request.getParameter("ta"));
          -----------------------------2--


          主站蜘蛛池模板: 昆明市| 林西县| 临桂县| 金华市| 望江县| 靖边县| 安远县| 东乡族自治县| 定安县| 余庆县| 泊头市| 汉川市| 金堂县| 昌都县| 山阳县| 康定县| 南靖县| 南汇区| 翼城县| 格尔木市| 长顺县| 星子县| 台中市| 曲松县| 全椒县| 蒙自县| 永春县| 博野县| 清丰县| 财经| 牡丹江市| 大连市| 郯城县| 米林县| 扎鲁特旗| 分宜县| 厦门市| 会昌县| 邹平县| 潮安县| 洪雅县|