亚洲精品国偷自产在线99热,国产精品成人免费视频,国产伊人精品

�l�数二十世纪最伟大�?0大算�?zz)

Crazynut — Sun, 16 Jan 2011 08:55:00 GMT

转自�Q?a >http://blog.csdn.net/v_JULY_v/archive/2011/01/10/6127953.aspx

译者：(x��)July 二零一一�q�一月十�?/span>

------------------------------------

参考论文：(x��)
The Best of the 20th Century: Editors Name Top 10 Algorithms�?br /> By Barry A. Cipra�?/p>

博主说明:
1、此20世纪的十大算法，除了快速排序算法，或者快速傅立叶变换�Q�其它算法只要稍作了解即可�?br /> 2、此文非最新文章，只是本�h对算法比较感兴趣�Q�所以也做翻译，学习(f��n)研究下�?br /> 3、本人喜好研�I�算法，写了一�p�d���l�典��法研究的文章。详情，参考本文文末链接�?/p>

===============================

一�?946 蒙特卡洛�Ҏ(gu��)��
[1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at the Los Alamos Scientific Laboratory, cook up the Metropolis algorithm, also known as the Monte Carlo method.]

1946�q�_(d��)��国拉斯阿莫斯国家实验室的三位科学家John von Neumann,Stan Ulam �?Nick Metropolis
共同发明�Q�被�U�Cؓ(f��)蒙特卡洛�Ҏ(gu��)��?/p>

它的具体定义是：(x��)
在广��Z��M��个边长一�c�的正方形，在正方�Ş内部随意用粉�W�画一个不规则的�Ş�Ӟ��
现在要计��这个不规则囑�Ş的面�U�，怎么计算�?
蒙特卡洛(Monte Carlo)�Ҏ(gu��)��告诉我们�Q�均匀的向该正方�Ş内撒N�Q�N 是一个很大的自然敎ͼ�个黄豆，
随后数数有多��个黄豆在这个不规则几何形状内部�Q�比如说有M个，
那么�Q�这个奇怪�Ş状的面积便近��g��M/N�Q�N��大�Q�算出来的��g��精��?br /> 在这里我们要假定豆子都在一个��^面上�Q�相互之间没有重叠�?撒黄豆只是一个比喅R�?

蒙特卡洛�Ҏ(gu��)��可用于近��D��圆周率�Q?br /> 让计��机每次随机生成两个0�?之间的数�Q�看�q�两个实数是否在单位圆内�?br /> 生成一�p�d��随机点，�l�计单位圆内的点��C��ȝ��敎ͼ�内接圆面�U�和正方形面�U�之比�ؓ(f��)PI:4�Q�PI为圆周率�?/p>

(多谢�|�友七里沌��才指出，S内接圆：(x��)S�?PI�Q?。具体，��L(f��ng)��文下�W?9条评论�?strong>十六日修�?/strong>)�Q?/p>

当随机点取得��多�Q�但即��?0�?�ơ方个随机点�Ӟ��其结果也仅在�?位与圆周率吻合）�Ӟ��
其结果越接近于圆周率�?/p>

二�?947 单纯形法
[1947: George Dantzig, at the RAND Corporation, creates the simplex method for linear programming.]

1947�q�_(d��)��兰�d公司的，Grorge Dantzig�Q�发明了单纯形方法�?br /> 单纯形法�Q�此后成��Z��U�性规划学�U�的重要基石�?br /> 所谓线性规划，��单的��_(d��)��是�l�定一�l�线性（所有变量都是一�ơ幂�Q�约束条�?br /> �Q�例如a1*x1+b1*x2+c1*x3>0)�Q�求一个给定的目标函数的极倹{�?/p>

�q�么说似乎也太太太抽象了�Q�但在现实中能派上用场的例子可不�|�见——比如对于一个公司而言�Q�其能够�?/p>

入生产的人力物力有限�Q?#8220;�U�性约束条�?#8221;�Q�，而公司的目标是利润最大化�Q?#8220;目标函数取最大�?#8221;�Q�，�?/p>

�Q�线性规划�ƈ不抽象吧�Q?/p>

�U�性规划作��{�学(operation research)的一部分�Q�成为管理科学领域的一�U�重要工兗��?br /> 而Dantzig提出的单�U��Ş法便是求解类似线性规划问题的一个极其有效的�Ҏ(gu��)��?/p>

三�?950 Krylov子空间�P代法
[1950: Magnus Hestenes, Eduard Stiefel, and Cornelius Lanczos, all from the Institute for Numerical Analysis at the National Bureau of Standards, initiate the development of Krylov subspace iteration methods.]

1950�q�_(d��)��(x��)��国国家标准局数值分析研�I�所的，马格努斯Hestenes�Q�爱德华施蒂费尔�?br /> �U�尼利厄斯的Lanczos�Q�发明了Krylov子空间�P代法�?/p>

Krylov子空间�P代法是用来求解�Ş如Ax=b 的方�E�，A是一个n*n 的矩阵，当n充分大时�Q�直接计��变得非�?/p>

困难�Q�而Krylov�Ҏ(gu��)��则��y妙地��其变�ؓ(f��)Kxi+1=Kxi+b-Axi的�P代�Ş式来求解�?br /> �q�里的K(来源于作者俄国�hNikolai Krylov姓氏的首字母)是一个构造出来的接近于A的矩阵，
而�P代�Ş式的��法的妙处在于，它将复杂问题化简为阶�D�|��的易于计算的子步骤�?/p>

四�?951 矩阵计算的分解方�?br /> [1951: Alston Householder of Oak Ridge National Laboratory formalizes the decompositional approach to matrix computations.]

1951�q�_(d��)��阿尔斯通橡�?w��i)岭国家实验室的Alston Householder提出�Q�矩阵计��的分解�Ҏ(gu��)��?/p>

�q�个��法证明了�Q何矩阵都可以分解��Z��角、对角、正交和其他�Ҏ(gu��)��形式的矩阵，
该算法的意义使得开发灵�zȝ��矩阵计算软�g包成为可能�?/p>

五�?957 优化的Fortran�~�译�?br /> [1957: John Backus leads a team at IBM in developing the Fortran optimizing compiler.]

1957�q�_(d��)��(x��)�U�翰巴库斯领导开发的IBM的团队，创造了Fortran优化�~�译器�?/p>

Fortran�Q�亦译�ؓ(f��)��传�Q�是由Formula Translation两个字所�l�合而成�Q�意思是“公式��译”�?br /> 它是世界上第一个被正式采用�q�流传至今的高��~�程语言�?br /> �q�个语言现在�Q�已�l�发展到了，Fortran 2008�Q��ƈ��Z�h们所熟知�?/p>

六�?959-61 计算矩阵特征值的QR��法
[1959–61: J.G.F. Francis of Ferranti Ltd, London, finds a stable method for computing

eigenvalues, known as the QR algorithm.]

1959-61�Q��u敦费伦蒂有限公司的J.G.F. Francis�Q�找��C��一�U�稳定的特征值的计算�Ҏ(gu��)��Q?br /> �q�就是著名的QR��法�?/p>

�q�也是一个和�U�性代数有关的��法�Q�学�q�线性代数的应该记得“矩阵的特征�?#8221;�Q�计��特征值是矩阵计算�?/p>

最核心内容之一�Q�传�l�的求解�Ҏ(gu��)��涉及(qi��ng)到高?g��u)ơ方�E�求根，当问题规模大的时候十分困难�?/p>

QR��法把矩阵分解成一个正交矩�?希望��L��文的你，知道什么是正交矩阵�?D�?与一个上三角矩阵的积�Q?/p>

和前面提到的Krylov �Ҏ(gu��)��c�M��Q�这又是一个�P代算法，它把复杂的高?g��u)ơ方�E�求栚w��题化��为阶�D�|��的易于

计算的子步骤�Q��得用计算机求解大规模矩阵特征值成为可能�?br /> �q�个��法的作者是来自英国伦敦的J.G.F. Francis�?/p>

七�?962 快速排序算�?br /> [1962: Tony Hoare of Elliott Brothers, Ltd., London, presents Quicksort.]
1962�q�_(d��)��(x��)伦敦的，托尼埃利奥特兄弟有限公司�Q�霍��?d��ng)提��Z��快速排序�?/p>

哈哈�Q�恭喜你�Q�终于看��C��可能是你�W�一个比较熟�(zh��n)�的��法~�?br /> 快速排序算法作为排序算法中的经典算法，它被应用的媄子随处可见�?/p>

快速排序算法最早由Tony Hoare爵士设计�Q�它的基本思想是将待排序列分�ؓ(f��)两半�Q?br /> 左边的一半��L��“��的”�Q�右边的一半��L��“大的”�Q�这一�q�程不断递归持箋下去�Q�直到整个序列有序�?br /> 说�v�q�位Tony Hoare爵士�Q�快速排序算法其实只是他不经意间的小��发现而已�Q�他对于计算��A(ch��)献主要包�?/p>

形式化方法理论，以及(qi��ng)ALGOL60 �~�程语言的发明等�Q�他也因�q�些成就获得1980 �q�图灵奖�?/p>

========

关于快速排序算法的具体认识与应用，可参考我写的一��文章，
�_�N��八大排序算法系列、一、快速排序算�?/span>�Q?/span>

http://blog.csdn.net/v_JULY_v/archive/2011/01/04/6116297.aspx

------------------------------------------------------------

快速排序的�q�_��旉��复杂度仅仅�ؓ(f��)O(Nlog(N))�Q�相比于普通选择排序和冒泡排序等而言�Q?br /> 实在是历史性的创�D�?/p>

八�?965 快速傅立叶变换
[1965: James Cooley of the IBM T.J. Watson Research Center and John Tukey of Princeton
University and AT&T Bell Laboratories unveil the fast Fourier transform.]

1965�q�_(d��)��(x��)IBM 华生研究院的James Cooley�Q�和普林斯顿大学的John Tukey�Q?br /> AT�Q�T贝尔实验室共同推��Z��快速傅立叶变换�?/p>

快速傅立叶��法是离散傅立叶��法�Q�这可是数字信号处理的基矻I��的一�U�快速算法，其时间复杂度仅�ؓ(f��)O

(Nlog(N))�Q�比旉��效率更�ؓ(f��)重要的是�Q�快速傅立叶��法非常�Ҏ(gu��)��用硬件实玎ͼ�因此它在�?sh��)子技术领域得�?/p>

极其�q�泛的应用�?/p>

日后�Q�我�?x��)在我�?strong>�l�典��法研究�p�d��Q�着重阐�q�此��法�?/p>

�?ji��)�?977 整数关系探测��法
[1977: Helaman Ferguson and Rodney Forcade of Brigham Young University advance an integer
relation detection algorithm.]
1977�q�_(d��)��(x��)Helaman Ferguson�?伯明��大学的Rodney Forcade�Q�提��Z��Forcade��算法的整数关系�?/p>

整数关系探测是个古老的问题�Q�其历史甚至可以�q�溯到欧几里��L(f��ng)��时代。具体的�?
�l�定—组实数X1,X2,...,Xn�Q�是否存在不全�ؓ(f��)零的整数a1,a2,...an�Q��?a1 x 1 +a2 x2 + . . . + an x

n �Q??
�q�一�q�BrighamYoung大学的Helaman Ferguson 和Rodney Forcade解决了这一问题�?br /> 该算法应用于“��化量子场��Z��的Feynman囄��计算”。ok�Q�它�q�不要你懂，了解卛_��?D�?/p>

十�?987 快速多极算�?br /> [1987: Leslie Greengard and Vladimir Rokhlin of Yale University invent the fast multipole algorithm.]

1987�q�_(d��)��(x��)莱斯利的Greengard�Q�和耉��大学的Rokhlin发明了快速多极算法�?/p>

此快速多极算法用来计��?#8220;�l�由引力或静�?sh��)力�怺�作用的N 个粒子运动的�_��计算——例如银河系中的星体�Q?br /> 或者蛋白质中的原子间的�怺�作用”。ok�Q�了解即可�?br />
完�?/p>

Crazynut 2011-01-16 16:55 发表评论

字符�~�码��试�ȝ��(zz)

Crazynut — Sun, 16 Jan 2011 08:38:00 GMT

转蝲自：(x��)http://hi.baidu.com/baiduqa/blog/item/5c937b418264581f73f05d20.html

1. 字符�~�码基础知识

1.1. 字符�~�码基本概念

��C��~�码模型的编码思想包括�Q�有什么字�W�、他们的�~�号、这些编号如何编码成一�p�d��的码元，以及(qi��ng)最后这些单元如何编码�ؓ(f��)8位字节流。对应于如下术语�Q?br style="line-height: normal" /> 1�Q�字�W�表一个系�l�所支持的所有抽象字�W�的��d��?br style="line-height: normal" /> 2�Q�编码字�W�集定义了如何��用称为码点的非负整数集表�C�Z��个字�W�集�Q�一个整数对应一个抽象的字符�?br style="line-height: normal" /> 3�Q�字�W�编码�Ş�?定义��编码字�W�集的整��C��码�{换成有限大小整数代码��g��利于使用固定位的二进制表�C�数字的形式的系�l�存储。例如��?位或16位单元存储数字信息。字�W�编码�Ş式定义了如何用单个或多个码��D��C�码点的�Ҏ(gu��)��。例如utf8是一�U�编码�Ş式，utf-16则是另一�U�编码�Ş式�?br style="line-height: normal" /> 4�Q�字�W�编码机�?定义固定大小的整��C��码如何映��到��Z��8位字节数据的文�g�pȝ��存储或者基�?位字节网�l�传输。在多数使用unicode的场合，一个简单的字符�~�码机制用来指定每个整数的字节顺序是大字节在先顺序还是小字节在先��序。还有其他复杂的字符�~�码机制�?br />

1.2. 字符�~�码发展

    字符�~�码的历史大致可以分��Z��个阶�D�：(x��)
    1�Q�ascii阶段
    刚开始只支持��p��Q�其他语�a�不能够在计算��Z��存储和显�C�。��用一个字节来存一个字�W��?br style="line-height: normal" />     2�Q�ansi�~�码�Q�本地化�Q?br style="line-height: normal" />     ��Z��计算机支持更�q�语�a��Q�通过使用0x80~0xFF范围�?个字节来表示1个字�W�。不同的国家和地区制定了不同的标准，由此产生了各�U�各��L(f��ng)��~�码标准�Q�如gb2312、big5、jis�{�。这些��用两个字节来表示一个字�W�的各种汉字延�׾~�码方式�Q�称为ansi�~�码�?br style="line-height: normal" />     3�Q�Unicode阶段�Q�国际化�Q?br style="line-height: normal" />     ��Z��使国际间信息交流更加方便�Q�国际组�l�制定了unicode字符集，为各�U�语�a�中的每一个字�W�设定了�l�一�q�且唯一的数字编��P��以满��语言、跨�q�_��q�行文本转换、处理的要求。Unicode仅仅制定了字�W�集�Q�用来给unicode�~�码的标准有utf-7、utf-8、utf-16、unicodeLittle、unicodebig�{��?br />
1.3. 主要�~�码

1.3.1. Ascii
ascii全称��国信息互换标准代码�Q�american standard code for information interchage�Q�。主要用于显�C�现代英语和其他西欧语言�Q�是��C��最通用的单字节�~�码�Q�等于国标标准iso 646。包含控制字�W?2个和可打印字�W?4个。编码单元�ؓ(f��)8位，取值单位从0x00-0x7F�Q�最高�ؓ(f��)0�?br />
1.3.2. 汉字�~�码
汉字�~�码均采用双字节�~�码�Q�编码单元�ؓ(f��)8位�?br />
1.3.2.1. Gb2312-80
Gb2312是对ascii的中文扩展，是中华�h民共和国国家标准汉字信息交换用编码。收录简化汉字及(qi��ng)一般符受��序受��数字、拉丁字母、日文假名、希腊字母、俄文字母等�?445个图形字�W�。其中汉字以外的囑�Ş字符682个，汉字6763个。�ؓ(f��)了与�pȝ��中基本的ascii字符集区分开�Q�所有汉字编码的每个字节的第一位都�?�?br style="line-height: normal" /> Gb2312的汉字编码规则是�Q�第一个字节的值在0xB0�?xF7之间�Q�第二个字节的值在0xA0�?xFE之间。但是gb2312收录的汉字太��，以致很多常用字都没有收录�Q�如朱鎔基的“�?#8221;字。�ؓ(f��)了解册��些问题，以及(qi��ng)配合unicode的实施，全国信息技术化技术委员会(x��)制定了gb13000�Q�即gbk。Gbk向下与gb2312完全兼容�Q�向上支持iso-10646国际标准�?/span>

1.3.2.2. Gbk
    Gbk包含�?0902个汉字，其编码范围是0x8140-0xfefe�Q�剔除高�?x80的字位。收录汉字包括：(x��)
    1�Q�gb2312中全部汉字、非汉字字符
    2�Q�big5中的全部汉字
    3�Q�与iso-10646相应的国家标准gb13000中的其他cjk汉字
    4�Q�其他汉字、部首、符��L(f��ng)��?br />
    其编码区分成三个部分�Q?br style="line-height: normal" />     1�Q�汉字区包括
        a) Gbk/2�Q?xb0a1-f7fe�Q�收录gb2312汉字6763个，按原序排列，0xd7fa-0xd7fe为空�z��?br style="line-height: normal" />         b) Gbk/3�Q?x8140-a0fe�Q�收录cjk汉字6080个，0x817f-0xa07f为空�z?br style="line-height: normal" />         c) Gbk/4�Q?xaa40-fea0�Q�收录cjk汉字和增补汉�?160个，0xaa7f-0xfe7f为空�z?br style="line-height: normal" />     2�Q�图形符号区包括
        a) Gbk/1�Q?xa1a1-0xa9fe�Q�除gb2312的符号外�Q�还增补了其他符�?br style="line-height: normal" />         b) Gbk/5�Q?xa840-0xa9a0�Q�扩充非汉字�?br style="line-height: normal" />     3�Q�用戯��定义�?br />
1.3.2.3. Gb18030-2000
    GB18030-2000�?000�q�推出的国家标准。它可以视�ؓ(f��)GBK的升�U�，因�ؓ(f��)它主要增加了Unicode 3.0中新增的一些字�W�。除了GBK的字�W�，它能表示UNICODE中所有的字符。中国出售的所有��Y件��品都要求支持GB18030�?br style="line-height: normal" /> GB18030与GBK完全兼容�Q�除了欧元符�?�Q�在GB18030中是A2E3�Q�在GBK中是0x80�?br style="line-height: normal" /> 采用单字节、双字节和四字节三种方式对字�W�编码，�~�码范围如下�Q?br style="line-height: normal" />     1�Q�单字节: 0x00-0x7f
    2�Q�双字节: 0x81-0xfe + 0x40-0x7e, 0x80-0xfe
    3�Q�四个字�? 0x81-0xfe + 0x30-0x39 + 0x81-0xfe + 0x30-0x39

1.3.2.4. Big5
    Big5又称五大码，是��用繁体中文字�C��众最常用的计��机汉字字符集标准，由台�?家大公司的方案拼凑而成�?br style="line-height: normal" />     Big5共收�?3053个中文字�Q�其中有两个字重码，为兀�Q?xa461�?xc94a�Q�和嗀�Q?xdcd1-0xddfc�Q��?br style="line-height: normal" />     Big5使用双八码存储方式，以两个字节来安放一个字。高位字节��用了0xa1-0xf9�Q�低位字节��用了0x40-0x7e�?xa1-0xfe�?br style="line-height: normal" />     原始的BIG-5 只包括一些常用的字，甚至不包括日文的假名�{�，在实际的应用中很多系�l�给BIG-5加上了自��q��扩展。例如，MS code page 950�Q�欧元符号A3E1�?br />
1.3.3. Unicode
    Unicode是一个大一�l�的�Ҏ(gu��)��Q�它�?/span>http://www.unicode.org制定的编码机�Ӟ��要将全世界常用文字都函括�q�去。它为每�U�语�a�中的每个字符讑֮�了统一�q�且唯一的二�q�制�~�码�Q�以满��跨语�a�、跨�q�_��q�行文本转换、处理的要求�?990�q�开始研发，1994�q�正式公布。随着计算机工作能力的增强�Q�Unicode也在面世以来的十多年里得到普�?qi��ng)�?br style="line-height: normal" />     但自从unicode2.0开始，unicode采用了与ISO 10646-1相同的字库和字码�Q�ISO也承诺ISO10646��不�?x��)给��?x10FFFF的UCS-4�~�码赋��|��使得两者保持一致�?nbsp;
    Unicode的编码方式与ISO 10646的通用字符�?Universal Character Set�Q�UCS)概念相对应，目前的用于实用的Unicode版本对应于UCS-2�Q��?6位的�~�码�I�间。也��是每个字符占用2个字节，基本满��各种语言的��用。实际上目前版本的Unicode��未填充满这16位编码，保留了大量空间作为特�D��用或��来扩展�?nbsp;
    Unicode和ucs只是分配整数�l�字�W�的�~�码表，卛_��是一个编码字�W�集合。现在存在好几种��一个字�W�表�C�Zؓ(f��)若干个字节的�Ҏ(gu��)��。最显而易见的�Ҏ(gu��)��是将unicode文本存储�?个或4个字节序列的丌Ӏ�这两种�Ҏ(gu��)��的正式名�U�Cؓ(f��)ucs-2和ucs-4�?br style="line-height: normal" />     但是在unix下��用ucs-2或ucs-4�?x��)导致非�怸�重的问题。用�q�些�~�码的字�W�串�?x��)包含一些特�D�的字符�Q�比�?#8217;\0’�?#8217;/’�Q�他们在文�g名和其他c库函数里都有特别的含义。另外，大多��C��用ascii文�g的unix下的工具�Q�如果不�q�行重大修改是无法读�?6位的字符的。基于这些原因，在文件名�Q�文本文件、环境变量等地方�Q�ucs-2不适合作�ؓ(f��)unicode的外部编码�?br style="line-height: normal" />     因此需要一�U�新的编码方案称为utf�Q�unicode transfer format�Q�运用在unix/linux环境中。Utf-7�Q�utf-8�Q�utf-16都是�q�泛接受的方案。Rfc2781和rfc3629定义了utf-8和utf-16的编码方式�?/span>

1.3.3.1. Utf-8
    Utf-8��是�?位�ؓ(f��)单元对ucs-2�q�行�~�码。从ucs-2到utf-8的编码方式如下：(x��)
    U-00000000 - U-0000007F:         0xxxxxxx
    U-00000080 - U-000007FF:         110xxxxx 10xxxxxx
    U-00000800 - U-0000FFFF:         1110xxxx 10xxxxxx 10xxxxxx
    U-00010000 - U-001FFFFF:
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    U-00200000 - U-03FFFFFF:
    111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    U-04000000 - U-7FFFFFFF:
    1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    Utf-8有如下特性：(x��)
    1�Q�UCS 字符 U+0000 �?U+007F (ASCII) 被编码�ؓ(f��)字节 0x00 �?0x7F (ASCII 兼容)。这意味着只包�?7 �?ASCII 字符的文件在 ASCII �?UTF-8 两种�~�码方式下是一��L(f��ng)��?br style="line-height: normal" />     2�Q�所�?>U+007F �?UCS 字符被编码�ؓ(f��)一个多个字节的�? 每个字节都有标记位集。因�? ASCII 字节 (0x00-0x7F) 不可能作��Z�Q何其他字�W�的一部分.
    3�Q�表�C�非 ASCII 字符的多字节串的�W�一个字节��L��?0xC0 �?0xFD 的范围里, �q�指��个字�W�包含多��个字节。多字节串的其余字节都在 0x80 �?0xBF 范围里。这使得重新同步非常�Ҏ(gu��)��Q��ƈ使编码无国界, 且很��受丢失字节的媄�?
    4�Q�可以编入所有可能UCS 代码
    5�Q�UTF-8 �~�码字符理论上可以最多到 6 个字节长, 然�?16 �?BMP 字符最多只用到 3 字节�ѝ�?br style="line-height: normal" />     6�Q�Bigendian UCS-4 字节串的排列��序是预定的.
    7�Q�字�?0xFE �?0xFF �?UTF-8 �~�码中从未用�?

1.3.3.2. Uft-16
Utf-16是以16位�ؓ(f��)�~�码单元的，在范围u+0000到u+ffff间的码点使用一个单一�?6位编码单元表�C�；而在范围u+10000到u+10FFFF间的码点则��用一�?6位编码单元表�C�，�U�C��代理寏V��Utf-16优化了基本多语言�q�面�Q�bmp�Q�中字符的表�C�，即位于u+0000到u+FFFF范围内的字符。该范围包含了目前世界上所使用的书写系�l�中的绝大数字符�Q�每个字�W�只需要一�?6位的�~�码单元。对于基本多语言�q�面�Q�utf-16可作为固定宽度的�~�码格式来有效��用。但是对于增补字�W�，utf-16需要两�?6位的�~�码单元�Q�意味着正式的utf-16是一个变宽的�~�码格式。Utf-16是早期unicode遗留下的历史产物�Q�原本被设计成具有固定宽度的16位编码格式，为支持超�q�u+ffff的增补字�W�，讄��了代理机制�?/span>

1.3.3.3. Utf-32
Utf-32是一�U�最��单的unicode�~�码格式。每个unicode码点直接被表�C�Zؓ(f��)一�?2位的�~�码单元。Utf-32是一�U�固定宽度的字符�~�码格式。每个utf-32�~�码单元的��g��unicode码点的值完全相同�?/span>

1.4. Tips

1.4.1. �~�码字节�?br style="line-height: normal" />     Big endian和Little endian是CPU处理多字节数的不同方式。例�?#8220;�?#8221;字的Unicode�~�码�?C49。那么写到文仉��Ӟ��I�竟是将6C写在前面�Q�还是将49写在前面�Q�如果将6C写在前面�Q�就是big endian。如果将49写在前面�Q�就是little endian�?br style="line-height: normal" />     “endian”�q�个词出自《格列佛(j��ng)游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开�q�是从小�?Little-Endian)敲开�Q�由此曾发生�q�六�ơ叛乱，一个皇帝送了命，另一个丢了王位�?br style="line-height: normal" />     我们一般将endian��译�?#8220;字节�?#8221;�Q�将big endian和little endian�U�C��“大尾”�?#8220;��尾”�?br style="line-height: normal" />     对于��M��字符�~�码�Q�编码单元的��序是由�~�码�Ҏ(gu��)��指定的，与endian无关。例如gbk的编码单元是字节�Q�用两个字节表示一个汉字，�q�两个字节的��序是固定的�Q�不受cpu字节序的影响。Utf-16的编码单元是word�Q�word之间的顺序是�~�码�Ҏ(gu��)��指定的，word内部的字节排列才�?x��)收到endian的媄响。Utf-8也是以字节�ؓ(f��)�~�码单元�Q�没有字节序的问题�?br style="line-height: normal" />     一个��用utf-16�~�码的文件如何进行解释呢�Q�以一个例子来说明�Q�打开��C��本，写上一�D�|��字，然后另存�Q�在保存的对话框中可以看到有四种�~�码方式可以选择�Q�分别是�Q�ansi�Q�unicode�Q�unicode big endian和utf-8�?br style="line-height: normal" />     Ansi是默认编码方式，也是�pȝ��的默认编码方式，��q��省代码页军_��?br style="line-height: normal" />     Utf-8不用解释了�?br style="line-height: normal" />     Unicode和unicode big endian都是utf-16�~�码的两�U�，区别在于前者采用little endian�Q�后者采用big endian。还有一�U�方式采用bom标记字节序列�Q�bom�?#8220;byte order mark”�Q�是一个有点小聪明的想法。在ucs�~�码中有一个叫�?#8220;zero width no-break space”的字�W�，他的�~�码是feff。而feff在ucs中是不存在的字符�Q�所以不应该出现在实际传输中。Ucs规范��我们在传输字节流前，西安传输字符“zero width no-break space”。这样如果接受者收到fef�Q�就表明�q�个字节��是big-endian�Q�如果fffe�Q�就表明�q�个字节��是little-endian的�?br style="line-height: normal" />     “ABC”�q�三个字�W�用各种方式�~�码后的�l�果如下�Q?br style="line-height: normal" />     utf-16be   00 41 00 42 00 43
    utf-16le      41 00 42 00 43 00
    utf-16(bom be) fe ff 00 41 00 42 00 43
    utf-16(bom le) ff fe 41 00 42 00 43 00
    utf-16(不带bom) 00 41 00 42 00 43

1.4.2. Windows代码��?br style="line-height: normal" />     Unicode推出后，microsoft��windows的内栔R��Ҏ(gu��)��支持unicode字符集。但是由于现有的大量�E�序和文档都采用了某�U�特定语�a�的编码，例如gbk�Q�windows不可能不支持现有的编码而全部改用unicode。Windows使用代码��|��适应各个国家和地区。Gbk对应的code page是cp936�Q�gb18030的code page为cp54936。但是由于gb18030有一部分四字节编码，而windows的代码页只支持单字节和双字节�~�码�Q�故cp54936是无法真正��用的�?br style="line-height: normal" />     Windows可以同时支持多个代码��，只要文�g能够说明自己使用什么编码，用户又安装了对应的代码页�Q�windows��p��正确昄��Q�例如在html文�g中指定charset�?br style="line-height: normal" />     Windows中有�~�省代码��늚�概念�Q�可以通过控制面板的区域选项讄��Q�其作用是缺省用什么编码来解释字符。Windows的记事本的存储格式有一��Ҏ(gu��)��ansi�Q�其实就是按照缺省代码页的编码方式保存�?br />
2. �|�页�~�码方式

2.1. url�~�码基础知识

    一个http��h��需要经�q�如下几个环节：(x��)
    1�Q�浏览器把url以及(qi��ng)提交的内容经�q�编码后发送给服务�?br style="line-height: normal" />     2�Q�服务器处理完毕后将�l�果�~�码�q�回�l�浏览器
    3�Q�浏览器按照指定的编码显�C�网��?br style="line-height: normal" />     一个完整的url由如下方式组成：(x��)
    域名�Q�端�?contextPath/servletPath/pathInfo?queryString
    其中pathInfo和queryString是需要编码的部分�?br style="line-height: normal" />     Rfc1738中定义了url的语法语义，限制了url中可以出现的字符。对于不可在url中出现的字符需要按照一定的方式�q�行�~�码�Q�叫做url encode。需要进行encode的符号包括如下：(x��)
    1�Q�ascii中的控制字符�Q�原因很��单，因�ؓ(f��)他们是不可见的，范围�?0-1F�?F�Q?br style="line-height: normal" />     2�Q�非ascii字符�Q�比如中文字�W�等�Q�这是因为url中没有安全的办法指定字符集（rfc2396�Q�；
    3�Q�保留字�W�，url语法中用到的字符�Q?&+,/:;=?@
    4�Q�不安全字符�Q�空�?%<>{}I\~^[]`�Q�出于各�U�原因；
    url encode采用%XX方式�Q�XX为字�W�的十六�q�制�~�码�?br style="line-height: normal" />     但是在实际应用中�Q�浏览器是否�q�行url encode�Q�采用何�U�字�W�集�q�行url encode�Q�与��览器和服务器的讄��都有关系�Q�分析如下，以下分析均在windows中文环境中：(x��)
    1�Q�对用户在地址栏中直接输入的url�Q�编码方式与��览器的讄��有关
    ��览器（模式�Q?PathInfo QueryString
    Ie�Q�utf-8模式�Q�默认） Utf8�~�码�Q�无url encode Gbk�~�码�Q�无urlencode
    Ie�Q�ansi模式�Q?Gbk�~�码�Q�无urlencode Gbk�~�码�Q�无urlencode
    Firefox�Q�utf8模式�Q?Utf8�~�码�Q�urlencode Utf8�~�码�Q�urlencode
    Firefox�Q�ansi模式�Q�默认） Gbk�~�码�Q�urlencode Gbk�~�码�Q�urlencode
    Opera�Q�utf8模式�Q�默认） Utf8�~�码�Q�urlencode Utf8�~�码�Q�urlencode

    2�Q�对�|�页中的链接�Q�与该网��|��w�的�~�码方式有关�?br />     在不改变?g��u)��览器默认选项的情况下�Q�各个浏览器的编码方式如�?br style="line-height: normal" />     ��览器（�|�页�~�码方式�Q?PathInfo QueryString
    Ie�Q�utf8�|�页�Q?UTF-8�~�码、urlencode UTF-8�~�码、无urlencode
    Ie�Q�gbk�|�页�Q?UTF-8�~�码、urlencode GBK�~�码、无urlencode
    Firefox�Q�utf8�|�页�Q?UTF-8�~�码、urlencode UTF-8�~�码、urlencode
    Firefox�Q�gbk�|�页�Q?GBK�~�码、urlencode GBK�~�码、urlencode

    3�Q�对用户提交的数据，不论是get方式�q�是post方式�Q�其�~�码方式��q��中的编码方式和相关调用有关�?br style="line-height: normal" />     ��面的编码方式由http头指定或�|�页的meta标记指定。http头中含有content-type参数�Q�其中指定了charset�Q?br style="line-height: normal" />     Content-type:text/html;charset=gb2312
    Meta标记的方式如下：(x��)

    不同的浏览器处理方式也会(x��)不同�Q�ie可能通过文�g内容识别�Q�firefox偏向meta标签识别�?br style="line-height: normal" />     对于传统的表单提交，其编码方式是由页面的�~�码方式军_��的；而ajax提交的数据则与其调用方式有关�Q�如果采用了escape�c�M��的编码函敎ͼ�则编码成utf-8�q�行发送�?br />
2.2. 服务器对�~�码的处�?br />
    假设后端均采用gbk存储数据�Q�那么对提交的数据需�q�行�~�码识别�q�进行相应的�~�码转换�Q�主要针对两�U�情况：(x��)
    1�Q�url路径部分�Q?br style="line-height: normal" />     �׃��需要支持中文，�q�部分是不可控的�Q�取决于操作�pȝ��和浏览器�Q�因此需要进行判别到底是什么编码，然后再进行编码�{换�?br style="line-height: normal" />     2�Q�提交数据部分：(x��)
    提交的数据也既有可能是utf-8�~�码也有可能是gbk�~�码。一�U�办法是判断是否是utf-8�~�码�Q�但�q�种判断存在一定的��p�|率；�q�有一�U�办法从��面上控�Ӟ��提交时强制增加一个字�D�表�C��是否是utf-8�~�码�Q�apache无需考虑其他的，只根据该字段判断是否需要做utf-8到gbk的编码�{化，�q�个办法是不�?x��)出现误伤的�?br style="line-height: normal" />     判断是否是utf-8�~�码有一定的��p�|率，有如下几�U�情况：(x��)
    1�Q�判断错误�?br style="line-height: normal" />     主要发生在utf8与gbk�~�码重叠的部分，需�Ҏ(gu��)��实际应用�q�行处理�?br style="line-height: normal" />     2�Q�判断成功，但是转换��p�|�?br style="line-height: normal" />     没有对应的gbk�~�码�?x��)导致�{换失败，例如韩文字符�Q�在�q�种情况下可转成实体�?br style="line-height: normal" />     3�Q�判断是否是utf-8时判断错误，�q�且转换��p�|�Q�这�U�情况下不会(x��)出现问题�?br style="line-height: normal" />     �~�码的识别和转换完成后，后端的模块也需要根据实际应用进行各�U�各��L(f��ng)��处理�Q�如�Q�控制字�W�过滤、繁��转换、全半角转换、半个汉字处理、字�W�集�q��o(h��)�{�等�?br style="line-height: normal" />     当获取到数据�l�装��要�q�回的页面时�Q�对出现在页面上的信息需�q�行一定的转义�Q�比如对于一些由html标签�l�成的文本，如果不进行特�D�处理，那么��览器会(x��)当做标签来进行解析，从而引起页面展现错误�?br />
3. �~�码问题分类

3.1. gbk字符集中的特�D�字�W?br />
1�Q?0x80�Ƨ元�W�号
【分析�?br style="line-height: normal" /> 数据库支持有问题�Q�会(x��)自动截断�Q�gbk对其�~�码与其他编码方式不兼容。非必要条�g下徏议过滤掉�?br style="line-height: normal" /> 【Bad case�?br style="line-height: normal" /> 我们在进行编码设计时��包含欧元符��L(f��ng)��信息插入数据库，因�ؓ(f��)数据库将�Ƨ元�W�号以后的部分截断，记录的信息的长度与实际长度不一致从而引起下游模块的逻辑错误�?br style="line-height: normal" /> 2�Q?0x00-0x31控制字符部分
【分析�?br style="line-height: normal" /> 控制字符无法打印�?br style="line-height: normal" /> 【bad case�?br style="line-height: normal" />    当用��h��造了由控制字�W�组成的信息�Q�这部分信息昄��在页面上�Q�会(x��)佉K��面上本应出现文字的地方出现空白，�q�且如果�q�部分文字存在链接会(x��)使得链接失效从而导致不可点凅R�?br style="line-height: normal" /> 3�Q?0x7F �I�白��Z��
【分析】如果输入会(x��)是不可见字符�Q�徏议过滤掉�?br style="line-height: normal" /> 4�Q?0x5C反斜�?br style="line-height: normal" /> 【分析�?br style="line-height: normal" />     它的�Ҏ(gu��)��性在于两个原因：(x��)1、它作�ؓ(f��)转义�W�标�C�的�Ҏ(gu��)��用法�Q?、它�~�码区间
落在GBK字符集的后半个汉字允许的�~�码区间内。由于这两个原因�Q�再�l�合GBK字符集本�w�存在雪崩问题的隐�?zh��n)��Q�当末尾存在半个汉字�Q�和0x5C字符�l�合��可能导致�{义符��h��效，裔R��出后�l�的’�{�，��D��转义�W�号实效�Q�带来一些安全问题和js失效�{�问题。或者和半个汉字�l�合��D��mysql转义处理失效�?br style="line-height: normal" /> 5�Q?�I�洞区：(x��)0xd7fa-0xd7fe�Q?x817f-0xa07f�Q?xaa7f-0xfe7f
【分析�?br style="line-height: normal" />    GBK前半个汉字的范围�?x81-0xfe之间�Q�不�?xff�Q�如果用��h��造了0xff�q�样的半个汉字上来，�׃��部分��览器支持的问题�Q�例如ie�Q�就�?x��)�?xFF字符当作GBK的前半个汉字和后�l�字�W�结合�?br style="line-height: normal" />    除此之外�Q�码区的中间也有一些空�z?br style="line-height: normal" /> 【bad case�?br style="line-height: normal" />    如果黑客构�?xff 0x5c 0x27�q�样的字�W�串�Q?x5C是\�Q�作��{义标�C�符��P��0x27是单引号’�Q�，那么0xff�?x5c�l�合成�ؓ(f��)一个不可见字符�Q�导致原本\’的�{义失效，’暴露出来造成安全漏洞�?br style="line-height: normal" /> 6�Q?Sql语句中的�Ҏ(gu��)��字符�Q?#8217;、\
【分析�?br /> mysql对于�Ҏ(gu��)��字符�?\"�{�需要处理后才能存储�Q�采用的函数是mysql_real_escape�Q�）�Q�将其中的特�D�字�W��{义成/*�Q�对�q�个函数的要求是��面必须存在一个可用的mysql�q�接�?br style="line-height: normal" /> 7�Q?字符外�Ş和全角英文字�W�完全一致的字符�Q?xA6A2�?xA7A2�Q?xA976�?xA3A8
8�Q?全角�I�格�Q?xA1A1
9�Q?扩展汉字区域�Q�主要是非汉字区域和�Ҏ(gu��)��字符
10�Q�Cp936和其它码表定义不一致的地方
11�Q�GBK�~�码中和其他�~�码方式有冲�H�或者有处理方式不一��L(f��ng)��个别字符
12�Q�可以构成强制�{义字�W�的字符�Q?#
13�Q�字�W�串�l�束�W�：(x��)\0
14�Q�可能被作�ؓ(f��)数据�l�构分隔�W�的字符
15�Q�边界字�W�：(x��)�?(0x8140)�Q�亐 (0x8180)�Q�儈 (0x837E)�Q�凗 (0x83FE)�Q�狛 (0xA0FE)�Q�癄 (0XAFA0)�Q?(0xFE7E)�Q�鳌 (0xF7A1)�Q?0XFEA0)�Q�齄 (0XF7FE)�?br style="line-height: normal" /> 16�Q�Trailing byte �?low-ansi 范围�?(4 个例�?
        腀 (0xC440 / 0x8140)         �?(0x83A0 / 0x512c)
       �?(0xA07C / 0x7218)         �?(0xA086 / 0x7222)
17�Q�Leading �?trailing byte 大小写是相同的表�C?(3 个例�?
   'C' / 'c'       �?(0x8143) / �?(0x8163)
          'M' / 'm'       �?(0xF74D) / �?(0xF76D)
          'S' / 's'       S (0XA053) / s (0XA073)
18�Q�Trailing byte �?Leading byte 范围相同 (4 个例�?
          �?(0x8181)         �?(0xBABA)
            �?(0xA0A0)         �?(0xF7F7)
19�Q�leading �?trailing byte �?0xAA, 0xAE or 0xBF, �Ҏ(gu��)��变成��q��(3 个例�?     �?(0x9FAA)    �?(0x81AE)         �?(0XF7BF)
20�Q�以下特�D�字�W�的unicode 和汉字的 byte是一��L(f��ng)��Q�在解码的时候容易出错，应该�?0个左叻I��只列�?2�?á (U+00EA) (0xA8A2) à (U+00E0) (0xA8A4) é (U+00E9) (0xA8A6) è (U+00E8) (0xA8A8) ì (U+00EC) (0xA8AC) í (U+00ED) (0xA8AA) ó (U+00F3) (0xA8AE) ò (U+00F2) (0xA8B0) ú (U+00FA) (0xA8B2) ù (U+00F9) (0xA8B4) ü (U+00FC) (0xA8B9) ê (U+00EA) (0xA8BA)

3.2. utf8与gbk�~�码冲突部分

utf8与gbk�~�码冲突部分�Q�会(x��)��D��~�码识别��p�|�Q�从而在展现��面时出现问题。utf8与gbk�?27个重叠的�~�码�?br style="line-height: normal" /> 【bad case 1�?br style="line-height: normal" /> “璎玥“�q�个用户名，此用��L(f��ng)��正确的GBK是E8ACAB68�Q�最后一个字节就是ascii�?#8216;h‘。例如当用户在ff讉K��http://www.test.com/璎玥 �Ӟ��E8ACAB 是utf8�~�码�?#8221;��?#8221;�Q?8�?#8216;h’�Q�所以看到的��是讉K��用户”��h”。在ie下是正常的utf8�~�码字符�Q�所以无问题�?br style="line-height: normal" /> 【bad case 2�?br style="line-height: normal" /> �~�码0xc2b7�Q�在gbk中表�C?#8220;�?#8221;�q�个字，在uft8中表�C�Zؓ(f��)“•”�q�个字符。如果用��L(f��ng)��url中含有maria•sharapova�Q�当以utf8�~�码发送时�Q�被优先判断为gbk�~�码�Q�则服务器识别�ؓ(f��)maria路sharapova�?br style="line-height: normal" /> 重叠部分的编码既需要在不同的浏览器中测试，也需要在url路径和提交的数据中测试�?br />
3.3. Gbk中不存在的编�?br />
    1�Q�韩语字�W?br style="line-height: normal" />     2�Q�其他少数语�U?br style="line-height: normal" />     3�Q�GB18030相对GBK增加的字�W?br />
3.4. 盔R��字节�l�合部分

1�Q?内容�q��o(h��)中相��d��节组合：(x��)哈林
【bad case�?br style="line-height: normal" /> 汉字“哈林”相连�?个字节被识别�?#8220;�?#8221;�Q�正好是个过滤词�Q�导致正�怿�息被�q��o(h��)�?br style="line-height: normal" /> 2�Q?��面展现中相��d��节组合：(x��)牛肩猪肉
��面上如果存�?#8220;牛肩猪肉”的文字则��Zؕ码的现象�Q�原因在于牛的第二个字节和肩的第一个字节正好构成了全角�?#8216;>’字符�Q�后台对�q�类字符�q�行了�{义�?br style="line-height: normal" /> 3�Q?Sql语句中相��d��节组合成\�Q?br style="line-height: normal" /> 当用戯��入字�W?#243;' �{�一些字�W�时�Q�出��C��l�装SQL语句旉��误。这�c�d��W�的特点�? 一个大于ascii128�~�码的字�W�加上一�?�Q�在GBK�~�码�q�程中会(x��)被解析成为\�?,然后造成SQL语句的错误�?#243;字符为ASCII码的243�Q�可以用��键盘敲入。此�Ӟ��l�过mysql的�{码，被�{义成�?#243;\', 而汉字编码会(x��)��?#243;\形成一个汉字笈'�Q�这时就�?x��)出现mysql错误的问题�?/span>

作者：(x��)qabloger

Crazynut 2011-01-16 16:38 发表评论

亚洲精品国偷自产在线99热,国产精品成人免费视频,国产伊人精品

�l�数二十世纪最伟大�?0大算�?zz)

字符�~�码���试�ȝ��(zz)

字符�~�码��试�ȝ��(zz)