生命科學(xué)領(lǐng)域的專業(yè)信息解決方案！

化學(xué)結(jié)構(gòu)搜索，化學(xué)信息學(xué)，生物信息學(xué)，實驗室信息學(xué)等。
以高科技的生物、化學(xué)信息技術(shù)實現(xiàn)生命科學(xué)領(lǐng)域中專業(yè)數(shù)據(jù)的計算和管理、提高研發(fā)能力、增強在科研和成本效率方面的國際競爭力，為生物、化學(xué)、醫(yī)藥和學(xué)術(shù)機構(gòu)提供一流的解決方案和技術(shù)咨詢。

子曰：危邦不入，亂邦不居。天下有道則見，無道則隱。

BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理

posts - 431, comments - 344, trackbacks - 0

公告

Don't Repeat Yourself
座右銘：you can lose your money, you can spent all of it, and if you work hard you get it all back. But if you waste your time, you're never gonna get it back.
公告：本博客在此聲明部分文章為轉(zhuǎn)摘，只做資料收集使用。

微信: szhourui
QQ：109450684
Email
：lsi.zhourui@gmail.com

<

2008年2月

>

日

一

二

三

四

五

六

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

27

1

2

3

4

5

6

7

8

留言簿(15)

隨筆分類(1019)

文章分類(3)

文章檔案(21)

收藏夾

Java
Struts

Link

DHTML 參考手冊
speedtest
UML軟件工程組織
手冊中心

好友博客

Andy Yao
Charlie Zhu
Seal's Blog
叉的博客
姜海英
肖西洋
bio & chem

搜索

積分與排名

積分 - 866525
排名 - 44

閱讀排行榜

IE中打開UTF-8編碼title為中文的網(wǎng)頁會顯示空白頁的問題

當(dāng)頁面使用 utf-8 編碼時，
  <title>標(biāo)簽被放在<meta>標(biāo)簽前面。當(dāng)title為中文的時(比如Blog名為中文或者文章標(biāo)題為中文)，在IE下會出現(xiàn)顯示空白頁的問題。

  由于 utf-8 使用3個字節(jié)表示一個漢字，而GB2312或BIG5使用兩個字節(jié)。頁面輸出時，由于上述原因，使瀏覽器解析、輸出<title> </title>的內(nèi)容時，如果在</title>前有奇數(shù)個全角字符時，IE把 UTF-8 當(dāng)作兩個字節(jié)解析時出現(xiàn)半個漢字的情況，這時該半個漢字會和</title>的<結(jié)合成一個亂碼字，導(dǎo)致IE無法讀完<title>部分，致使整個頁面為空百輸出。此時查看源文件，會發(fā)現(xiàn)實際上整個頁面全部已經(jīng)下載了。

  而瀏覽器解析html的方式是：瀏覽器讀取了頁面的html代碼后開始進行解析。解析前瀏覽器要先知道頁面的編碼方式，然后根據(jù)編碼方式進行解碼，然后才能開始解析。
  瀏覽器可以從下面3個方面得到頁面編碼方式：
  HTTP Header中的"Content-Type"項；
  返回的html代碼開頭是否有BOM（Byte Order Mark）；
  html代碼中的meta標(biāo)簽。

  瀏覽器(無論是IE還是Firefox)在解析頁面時，首先取HTTP Header中的Content-Type項，如果有寫明charset的話就認(rèn)定頁面的編碼方式為charset指定的值。如果沒有指明，則認(rèn)定為默認(rèn)值。根據(jù)上表，IE中文版的默認(rèn)值是GB2312，F(xiàn)irefox中文版的默認(rèn)值是GBK，不過IE的GB2312好像和GBK沒啥區(qū)別。然后，瀏覽器會看一下有沒有BOM。一旦發(fā)現(xiàn)有UTF-8的3字節(jié)BOM，則重新認(rèn)定頁面的編碼方式為UTF-8。

  解碼階段，解碼完成后是解析html的階段。解析html的過程中，當(dāng)解析到head部分的meta標(biāo)簽時，瀏覽器會根據(jù)<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />這個語句中的說明，重新認(rèn)定編碼方式為charset后面的方式，中斷html解析過程，返回到解碼步驟重新解碼。

  GBK 和 UTF-8 的編碼范圍：
  GBK的編碼范圍是0×8140-0xfefe。從GB2312-80開始，因為ASCII碼的范圍是0~127，首字位是0，所以GB2312-80使用雙字節(jié)，并設(shè)置首字位為1。“GBK 亦采用雙字節(jié)表示，總體編碼范圍為 8140-FEFE，首字節(jié)在 81-FE 之間，尾字節(jié)在 40-FE 之間。”

  UTF-8中中文都是3個字節(jié)的，由于Unicode中中日韓的文字都混在一起，可以使用Windows自帶的字符映射表查看CJK表意字符的范圍，即為漢字的范圍。3字節(jié)的UTF-8編碼是：1110xxxx 10xxxxxx 10xxxxxx，編碼范圍是8000-EFFF，首字節(jié)在80-EF之間，尾字節(jié)在00-FF之間。

   顯然當(dāng)一段UTF-8編碼的文本被按照GBK方式解碼的時候，由于有一些編碼在GBK中不存在，造成解碼程序出現(xiàn)錯誤。當(dāng)UTF-8文本被按照GBK的方式解碼的時候，前兩個字節(jié)會被認(rèn)為是一個字，后一個字節(jié)將和下一個字符結(jié)合。當(dāng)<title>標(biāo)簽里的漢字?jǐn)?shù)是偶數(shù)個時，勉強有3/4的概率通過解碼程序(因為GBK的第二個字節(jié)要求是40-FE)，當(dāng)有奇數(shù)個漢字的時候，最后一個漢字的三個字節(jié)的最后一個字節(jié)會和< /title>的第一個字符<結(jié)合，而<的編碼是3C，正好不在尾字節(jié)40-FE的范圍中，造成錯誤。如果< /title>標(biāo)簽前有多余的空格也會產(chǎn)生錯誤，因為空格的編碼20也不在范圍中。

  meta 標(biāo)簽的作用：詳細(xì)請看《HTML中meta的作用》
  “meta是用來在HTML文檔中模擬HTTP協(xié)議的響應(yīng)頭報文。”在meta標(biāo)簽中寫和在HTTP頭里寫是一樣的，這也是為了解決用普通HTML寫網(wǎng)頁的人無法自行定義HTTP頭的問題。但是，meta是一個html標(biāo)簽，所以必須進入到html解析的步驟才能生效，而生效后，瀏覽器會退回幾步，重新設(shè)置好HTTP頭從頭再開始解碼、解析html。所以meta中寫的內(nèi)容會覆蓋HTTP頭里的內(nèi)容，無論哪個瀏覽器都是這樣的。

  出現(xiàn)空白頁必須的3項條件：
  1.title標(biāo)簽里的內(nèi)容為中文其他雙字節(jié)字符；
  2.指定網(wǎng)頁編碼的 meta 信息在 title 標(biāo)簽的下方；
  3.另存或轉(zhuǎn)換utf-8編碼時沒有包括 unicode 簽名。

  BOM （Byte Order Mark，字節(jié)序標(biāo)識）的作用：
  用于UTF-16編碼的文件，在UTF-8編碼的文件中不需要標(biāo)識字節(jié)序，所以被用來標(biāo)識這是一個UTF-8編碼文件。

  這個問題還是IE的兼容性問題，在解碼的時候如果遇到錯誤的編碼就中斷解碼。
  這個是IE的bug，不過也不要認(rèn)為你用的是MyIE、MyIE2、遨游Maxthon、GreenBrowser、騰訊TT就不會受到影響。Firefox或者Opera就更不會了。

  解決辦法：
  utf8頁面應(yīng)該使用標(biāo)準(zhǔn)順序
  <meta http-equiv=”content-type” content=”text/html; charset=UTF-8″ />
  <meta http-equiv=”content-language” content=”zh-CN” />
  <meta name=”robots” content=”index,follow” />
  <meta name=”keywords” content=”" />
  <meta name=”description” content=”" />
  <meta name=”rating” content=”general” />
  <meta name=”author” content=”" />
  <meta name=”copyright” content=”" />
  <meta name=”generator” content=”" />
  <title></title>

  參考文章：
  http://hewei.org/website-research/shtml-utf8-bom/ shtml調(diào)用在utf8編碼下多出空行的問題（解決）
  IE中打開UTF-8編碼title為中文的網(wǎng)頁會顯示空白頁的問題 (文中大部分是這里的觀點)
   做人要厚道，請注明轉(zhuǎn)自酷網(wǎng)動力(www.ASPCOOL.COM)。

posted on 2008-02-29 17:31 周銳閱讀(1074) 評論(0) 編輯收藏所屬分類: HTML 、Jsp

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 28條提高關(guān)鍵字排名的SEO優(yōu)化方法【轉(zhuǎn)載】 10 Oven Fresh jQuery Plugins 使用Ehcache對頁面緩存高性能網(wǎng)站建設(shè)-示例 Generating PDFs for Fun and Profit with Flying Saucer and iText 半透明效果文字不透明[轉(zhuǎn)載] jquery 中對checkbox的一些操作連動出發(fā)事件在jQuery中是如此簡單與優(yōu)美 button 在firefox和IE下面的小區(qū)別為jmesa表格的date類型數(shù)據(jù)加filter