国产婷婷一区二区,欧美久久久久久,国产精品毛片无码

dreamstone — Mon, 07 May 2007 14:27:00 GMT

摘要: tomcat5.5 jndi 各种配置方式分析�ȝ�� 阅读全文

dreamstone 2007-05-07 22:27 发表评论

看到两个写的很好的关于字�W�集,�~�码的文章，推荐大家看看�Q�另外纠正了(ji��n)一下原文中的小bug(UTF-8 UniCode UTF-16 UCS �{?

dreamstone — Mon, 27 Nov 2006 17:11:00 GMT

文章一�Q�本文�{载自:http://fmddlmyy.home4u.china.com/text6.html

谈谈Unicode�~�码�Q�简要解释UCS、UTF、BMP、BOM�{�名�?/h2>
�q�是一��程序员写给�E�序员的��味�ȝ��。所谓趣��x��指可以比较轻村֜��?ji��n)解一些原来不清楚的概念，增进知识�Q�类��g��打RPG游戏的升�U�。整理这��文章的动机是两个问题：(x��)

问题一�Q?

使用Windows��C��本的“另存�?#8221;�Q�可以在GBK、Unicode、Unicode big endian和UTF-8�q�几�U�编码方式间�怺�转换。同��h��txt文�g�Q�W(xu��)indows是怎样识别�~�码方式的呢�Q?/p>
我很早前��发现Unicode、Unicode big endian和UTF-8�~�码的txt文�g的开头会(x��)多出几个字节�Q�分别是FF、FE�Q�Unicode�Q?FE、FF�Q�Unicode big endian�Q?EF、BB、BF�Q�UTF-8�Q�。但�q�些标记是基于什么标准呢�Q?/p>
问题二：(x��)
最�q�在�|�上看到一个ConvertUTF.c�Q�实��C��(ji��n)UTF-32、UTF-16和UTF-8�q�三�U�编码方式的�怺�转换。对于Unicode(UCS2)、GBK、UTF-8�q�些�~�码方式�Q�我原来��׃��(ji��n)解。但�q�个�E�序让我有些�p�涂�Q�想不�v来UTF-16和UCS2有什么关�p�R�?

查了(ji��n)查相兌��料，�ȝ��这些问题弄清楚�?ji��n)，��带也�?ji��n)解了(ji��n)一些Unicode的细节。写成一��文章，送给有过�c�M��疑问的朋友。本文在写作时尽量做到通俗易懂�Q�但要求读者知道什么是字节�Q�什么是十六�q�制�?/p>

0、big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例�?#8220;�?#8221;字的Unicode�~�码�?C49。那么写到文仉��Ӟ��I�竟是将6C写在前面�Q�还是将49写在前面�Q�如果将6C写在前面�Q�就是big endian。如果将49写在前面�Q�就是little endian�?/p>

“endian”�q�个词出自《格列佛(j��ng)游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开�q�是从小�?Little-Endian)敲开�Q�由此曾发生�q�六�ơ叛乱，一个皇帝送了(ji��n)命，另一个丢�?ji��n)王位�?/p>

我们一般将endian��译�?#8220;字节�?#8221;�Q�将big endian和little endian�U�C��“大尾”�?#8220;��尾”�?/p>

1、字�W�编码、内码，��带介绍汉字�~�码

字符必须�~�码后才能被计算机处理。计��机使用的缺省编码方式就是计��机的内码。早期的计算��Z��?位的ASCII�~�码�Q��ؓ(f��)�?ji��n)处理汉字，�E�序员设计了(ji��n)用于��体中文的GB2312和用于繁体中文的big5�?/p>

GB2312(1980�q?一共收录了(ji��n)7445个字�W�，包括6763个汉字和682个其它符受��汉字区的内码范围高字节从B0-F7�Q�低字节从A1-FE�Q�占用的码位�?2*94=6768。其中有5个空位是D7FA-D7FE�?/p>

GB2312支持的汉字太��?995�q�的汉字扩展规范GBK1.0收录�?1886个符��P��它分为汉字区和图形符号区。汉字区包括21003个字�W��?/p>

从ASCII、GB2312到GBK�Q�这些编码方法是向下兼容的，卛_��一个字�W�在�q�些�Ҏ(gu��)��中��L��有相同的�~�码�Q�后面的标准支持更多的字�W�。在�q�些�~�码中，英文和中文可以统一地处理。区分中文编码的�Ҏ(gu��)��是高字节的最高位不�ؓ(f��)0。按照程序员的称��|��GB2312、GBK都属于双字节字符�?(DBCS)�?/p>

2000�q�的GB18030是取代GBK1.0的正式国家标准。该标准收录�?7484个汉字，同时�q�收录了(ji��n)藏文、蒙文、维向ְ�文等主要的少数民族文字。从汉字字汇上说�Q�GB18030在GB13000.1�?0902个汉字的基础上增加了(ji��n)CJK扩展A�?582个汉字（Unicode�?x3400-0x4db5�Q�，一共收录了(ji��n)27484个汉字�?/p>

CJK��是中日韩的意思。Unicode��Z��(ji��n)节省码位�Q�将中日韩三国语�a�中的文字�l�一�~�码。GB13000.1��是ISO/IEC 10646-1的中文版�Q�相当于Unicode 1.1�?/p>

GB18030的编码采用单字节、双字节�?字节�Ҏ(gu��)��。其中单字节、双字节和GBK是完全兼容的�?字节�~�码的码位就是收录了(ji��n)CJK扩展A�?582个汉字�?例如�Q�UCS�?x3400在GB18030中的�~�码应该�?139EF30�Q�UCS�?x3401在GB18030中的�~�码应该�?139EF31�?/p>

微��Y提供�?ji��n)GB18030的升�U�包�Q�但�q�个升��包只是提供了(ji��n)一套支持CJK扩展A�?582个汉字的新字体：(x��)新宋�?18030�Q��ƈ不改变内码。Windows 的内码仍然是GBK�?/p>

�q�里�q�有一些细节：(x��)

GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?/p>
对于��M��字符�~�码�Q�编码单元的��序是由�~�码�Ҏ(gu��)��指定的，与endian无关。例如GBK的编码单元是字节�Q�用两个字节表示一个汉字�?�q�两个字节的��序是固定的�Q�不受CPU字节序的影响。UTF-16的编码单元是word�Q�双字节�Q�，word之间的顺序是�~�码�Ҏ(gu��)��指定的，word内部的字节排列才�?x��)受到endian的媄(ji��ng)响。后面还�?x��)介�l�UTF-16�?/p>
GB2312的两个字节的最高位都是1。但�W�合�q�个条�g的码位只�?28*128=16384个。所以GBK和GB18030的低字节最高位都可能不�?。不�q�这不媄(ji��ng)响DBCS字符��的解析�Q�在��d��DBCS字符��时�Q�只要遇到高位�ؓ(f��)1的字节，��可以将下两个字节作��Z��个双字节�~�码�Q�而不用管低字节的高位是什么�?/p>

2、Unicode、UCS和UTF

前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容�Q�更准确地说�Q�是与ISO-8859-1兼容�Q�，与GB码不兼容。例�?#8220;�?#8221;字的Unicode�~�码�?C49�Q�而GB码是BABA�?/p>

Unicode也是一�U�字�W�编码方法，不过它是由国际组�l�设计，可以容纳全世界所有语�a�文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"�Q�简�U�Cؓ(f��)UCS。UCS可以看作�?Unicode Character Set"的羃写�?/p>

�Ҏ(gu��)��l�基癄��全书(http://zh.wikipedia.org/wiki/)的记载：(x��)历史上存在两个试囄��立设计Unicode的组�l�，卛_��际标准化�l�织�Q�ISO�Q�和一个��Y件制造商的协�?x��)（unicode.org�Q�。ISO开发了(ji��n)ISO 10646��目�Q�Unicode协会(x��)开发了(ji��n)Unicode��目�?/p>

�?991�q�前后，双方都认识到世界不需要两个不兼容的字�W�集。于是它们开始合�q�双方的工作成果�Q��ƈ为创立一个单一�~�码表而协同工作。从Unicode2.0开始，Unicode��目采用�?ji��n)与ISO 10646-1相同的字库和字码�?/p>

目前两个��目仍都存在�Q��ƈ独立地公布各自的标准。Unicode协会(x��)现在的最新版本是2005�q�的Unicode 4.1.0。ISO的最新标准是ISO 10646-3:2003�?/p>

UCS只是规定如何�~�码�Q��ƈ没有规定如何传输、保存这个编码。例�?#8220;�?#8221;字的UCS�~�码�?C49�Q�我可以�?个ascii数字来传输、保存这个编码；也可以用utf-8�~�码:3个连�l�的字节E6 B1 89来表�C�它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的�Ҏ(gu��)��。UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF�?#8220;UCS Transformation Format”的羃写�?/p>

IETF的RFC2781和RFC3629以RFC的一贯风��|��清晰、明快又不失严�}地描�q�C��(ji��n)UTF-16和UTF-8的编码方法。我��L��C��得IETF是Internet Engineering Task Force的羃写。但IETF负责�l�护的RFC是Internet上一切规范的基础�?/p>

2.1、内码和code page

目前Windows的内核已�l�支持Unicode字符集，�q�样在内�怸�可以支持全世界所有的语言文字。但是由于现有的大量�E�序和文档都采用�?ji��n)某�U�特定语�a�的编码，例如GBK�Q�W(xu��)indows不可能不支持现有的编码，而全部改用Unicode�?/p>

Windows使用代码��?code page)来适应各个国家和地区。code page可以被理解�ؓ(f��)前面提到的内码。GBK对应的code page是CP936�?/p>

微��Y也�ؓ(f��)GB18030定义�?ji��n)code page�Q�CP54936。但是由于GB18030有一部分4字节�~�码�Q�而W(xu��)indows的代码页只支持单字节和双字节�~�码�Q�所以这个code page是无法真正��用的�?/p>

3、UCS-2、UCS-4、BMP

UCS有两�U�格式：(x��)UCS-2和UCS-4。顾名思义�Q�UCS-2��是用两个字节编码，UCS-4��是�?个字节（实际上只用了(ji��n)31位，最高位必须�?�Q�编码。下面让我们做一些简单的数学游戏�Q?/p>

UCS-2�?^16=65536个码位，UCS-4�?^31=2147483648个码位�?/p>

UCS-4�Ҏ(gu��)��最高位�?的最高字节分�?^7=128个group。每个group再根据次高字节分�?56个plane。每个plane�Ҏ(gu��)��W?个字节分�?56�?(rows)�Q�每行包�?56个cells。当然同一行的cells只是最后一个字节不同，其余都相同�?/p>

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节�ؓ(f��)0的码位被�U�C��BMP�?/p>

��UCS-4的BMP��L��前面的两个零字节��得��C��(ji��n)UCS-2。在UCS-2的两个字节前加上两个零字节，��得��C��(ji��n)UCS-4的BMP。而目前的UCS-4规范中还没有��M��字符被分配在BMP之外�?/p>

4、UTF�~�码

UTF-8��是�?位�ؓ(f��)单元对UCS�q�行�~�码。从UCS-2到UTF-8的编码方式如下：(x��)

UCS-2�~�码(16�q�制)	UTF-8 字节��?二进�?
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

例如“�?#8221;字的Unicode�~�码�?C49�?C49�?800-FFFF之间�Q�所以肯定要�?字节模板�?ji��n)�?x��)1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是�Q?110 110001 001001�Q?用这个比�Ҏ(gu��)��依次代替模板中的x�Q�得刎ͼ�(x��)11100110 10110001 10001001�Q�即E6 B1 89�?/p>

读者可以用��C��本测试一下我们的�~�码是否正确。需要注意，UltraEdit在打开utf-8�~�码的文本文件时�?x��)自动�{换�ؓ(f��)UTF-16�Q�可能��生�؜淆。你可以在设�|�中��x��q�个选项。更好的工具是Hex Workshop�?/p>

UTF-16�?6位�ؓ(f��)单元对UCS�q�行�~�码。对于小�?x10000的UCS码，UTF-16�~�码��q��于UCS码对应的16位无�W�号整数。对于不��于0x10000的UCS码，定义�?ji��n)一个算法。不�q�由于实际��用的UCS2�Q�或者UCS4的BMP必然��于0x10000�Q�所以就目前而言�Q�可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题�?/p>

5、UTF的字节序和BOM

UTF-8以字节�ؓ(f��)�~�码单元�Q�没有字节序的问题。UTF-16以两个字节�ؓ(f��)�~�码单元�Q�在解释一个UTF-16文本前，首先要弄清楚每个�~�码单元的字节序。例�?#8220;�?#8221;的Unicode�~�码�?94E�Q?#8220;�?#8221;的Unicode�~�码�?E59。如果我们收到UTF-16字节��?#8220;594E”�Q�那么这�?#8220;�?#8221;�q�是“�?#8221;�Q?/p>

Unicode规范中推荐的标记字节��序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：(x��)

在UCS�~�码中有一个叫�?ZERO WIDTH NO-BREAK SPACE"的字�W�，它的�~�码是FEFF。而FFFE在UCS中是不存在的字符�Q�所以不应该出现在实际传输中。UCS规范��我们在传输字节流前，先传输字�W?ZERO WIDTH NO-BREAK SPACE"�?/p>

�q�样如果接收者收到FEFF�Q�就表明�q�个字节��是Big-Endian的；如果收到FFFE�Q�就表明�q�个字节��是Little-Endian的。因此字�W?ZERO WIDTH NO-BREAK SPACE"又被�U�C��BOM�?/p>

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字�W?ZERO WIDTH NO-BREAK SPACE"的UTF-8�~�码是EF BB BF�Q�读者可以用我们前面介绍的编码方法验证一下）(j��)。所以如果接收者收��C��EF BB BF开头的字节��，��q��道这是UTF-8�~�码�?ji��n)�?/p>

Windows��是使用BOM来标记文本文件的�~�码方式的�?/p>

6、进一步的参考资�?/h3>
本文主要参考的资料�?"Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)�?/p>
我还找了(ji��n)两篇看上��M��错的资料�Q�不�q�因为我开始的疑问都找��C��(ji��n)�{�案�Q�所以就没有看：(x��)

"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

我写�q�UTF-8、UCS-2、GBK�怺�转换的��Y件包�Q�包括��用Windows API和不使用Windows API的版本。以后有旉��的话�Q�我�?x��)整理一下放到我的个��Z��上(http://fmddlmyy.home4u.china.com)�?/p>
我是��x��楚所有问题后才开始写�q�篇文章的，原以��Z��?x��)儿��p��写好。没惛_��考虑措辞和查证细节花费了(ji��n)很长旉��Q�竟然从下午1:30写到9:00。希望有读者能从中受益�?/p>

附录1 再说说区位码、GB2312、内码和代码��?/h3>
有的朋友�Ҏ(gu��)��章中�q�句话还有疑问：(x��)
“GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?#8221;

我再详细解释一下：(x��)

“GB2312的原�?#8221;是指国家1980�q�的一个标准《中华�h民共和国国家标准信息交换用汉字编码字�W�集基本�?GB 2312-80》。这个标准用两个数来�~�码汉字和中文符受��第一个数�U�Cؓ(f��)“�?#8221;�Q�第二个数称�?#8220;�?#8221;。所以也�U�Cؓ(f��)��Z��码�?-9区是中文�W�号�Q?6-55区是一�U�汉字，56-87区是二��汉字。现在Windows也还有区位输入法�Q�例如输�?601得到“�?#8221;。（�q�个��Z��输入法可以自动识�?6�q�制的GB2312�?0�q�制的区位码�Q�也��是说输入B0A1同样�?x��)得�?#8220;�?#8221;。）(j��)

内码是指操作�pȝ��内部的字�W�编码。早期操作系�l�的内码是与语言相关的。现在的Windows在系�l�内部支持Unicode�Q�然后用代码��适应各种语言�Q?#8220;内码”的概念就比较模糊�?ji��n)。微软一般将�~�省代码��|��定的�~�码说成是内码�?/p>
内码�q�个词汇�Q��ƈ没有什么官方的定义�Q�代码页也只是微软这个公司的叫法。作为程序员�Q�我们只要知道它们是什么东西，没有必要�q�多地考证�q�些名词�?/p>
Windows中有�~�省代码��늚�概念�Q�即�~�省用什么编码来解释字符。例如Windows的记事本打开�?ji��n)一个文本文�Ӟ��里面的内�Ҏ(gu��)��字节��：(x��)BA、BA、D7、D6。Windows应该��L��么解释它呢�Q?/p>
是按照Unicode�~�码解释、还是按照GBK解释、还是按照BIG5解释�Q�还是按照ISO8859-1去解释？如果按GBK去解释，��׃��(x��)得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符�Q�也可能扑ֈ�错误的字�W�。所�?#8220;错误”是指与文本作者的本意不符�Q�这时就产生�?ji��n)�ؕ码�?/p>
�{�案是Windows按照当前的缺省代码页去解释文本文仉��的字节流。缺省代码页可以通过控制面板的区域选项讄��。记事本的另存�ؓ(f��)中有一��ANSI�Q�其实就是按照缺省代码页的编码方法保存�?/p>
Windows的内码是Unicode�Q�它在技术上可以同时支持多个代码��c(di��n)��只要文件能说明自己使用什么编码，用户又安装了(ji��n)对应的代码页�Q�W(xu��)indows��p��正确昄��Q�例如在HTML文�g中就可以指定charset�?/p>
有的HTML文�g作者，特别是英文作者，认�ؓ(f��)世界上所有�h都��用英文，在文件中不指定charset。如果他使用�?x80-0xff之间的字�W�，中文Windows又按照缺省的GBK去解释，��׃��(x��)出现��q��。这时只要在�q�个html文�g中加上指定charset的语句，例如�Q?br>
如果原作者��用的代码��和ISO8859-1兼容�Q�就不会(x��)出现��q��?ji��n)�?/p>
再说��Z��码，啊的��Z��码是1601�Q�写�?6�q�制�?x10,0x01。这和计��机�q�泛使用的ASCII�~�码冲突。�ؓ(f��)�?ji��n)兼�?0-7f的ASCII�~�码�Q�我们在��Z��码的高、低字节上分别加上A0。这�?#8220;�?#8221;的编码就成�ؓ(f��)B0A1。我们将加过两个A0的编码也�U�Cؓ(f��)GB2312�~�码�Q�虽然GB2312的原文根本没提到�q�一炏V�?

文章二，本文转蝲�?http://www.donews.net/holen/archive/2004/11/30/188182.aspx

Unicode:

unicode.org制定的编码机�? 要将全世界常用文字都函括�q�去.
�?.0中是16位编�? 由U+0000到U+FFFF. 每个2byte码对应一个字�W? �?.0开始抛弃了(ji��n)16位限�? 原来�?6位作为基本位�q�面, 另外增加�?6个位�q�面, 相当�?0位编�? �~�码范围0�?x10FFFF.

UCS:

ISO制定的ISO10646标准所定义�?Universal Character Set, 采用4byte�~�码.

Unicode与UCS的关�p?

ISO与unicode.org是两个不同的�l�织, 因此最初制定了(ji��n)不同的标�? 但自从unicode2.0开�? unicode采用�?ji��n)与ISO 10646-1相同的字库和字码, ISO也承诺ISO10646��不�?x��)给��?x10FFFF的UCS-4�~�码赋�? 使得两者保持一�?

UCS的编码方�?

UCS-2, 与unicode�?byte�~�码基本一�?

UCS-4, 4byte�~�码, 目前是在UCS-2前加�?个全零的byte.

UTF: Unicode/UCS Transformation Format
----------------------------------------------------------原文------------------------------------------------------------------------------------
UTF-8, 8bit�~�码, ASCII不作变换, 其他字符做变长编�? 每个字符1-3 byte. 通常作�ؓ(f��)外码. 有以下优�?
* 与CPU字节��序无关, 可以在不同��^��C��间交��?br>* 定w��能力�? ��M��一个字节损坏后, 最多只�?x��)导致一个编码码位损�? 不会(x��)��N��错误(如GB码错一个字节就�?x��)整行�ؕ�?

UTF-16, 16bit�~�码, 是变长码, 大致相当�?0位编�? 值在0�?x10FFFF之间, 基本上就是unicode�~�码的实�? 它是变长�? 与CPU字序有关, 但因为最省空�? �怽�为网�l�传输的外码.
----------------------------------------------------------原文------------------------------------------------------------------------------------
----------------------------------------------------------�U�正�?-----------------------------------------------------------------------------------

UTF-8, 8bit�~�码, ASCII不作变换, 其他字符做变长编�? 每个字符1-3 byte. 通常作�ؓ(f��)外码. 有以下优�?
* 与CPU字节��序无关, 可以在不同��^��C��间交��?br>* 定w��能力�? ��M��一个字节损坏后, 最多只�?x��)导致一个编码码位损�? 不会(x��)��N��错误(如GB码错一个字节就�?x��)整行�ؕ�?

UTF-16, 16bit�~�码, 是定长码, 基本上就是unicode�~�码的实�? 与CPU字序有关
----------------------------------------------------------�U�正�?----------------------------------------------------------------------------------

UTF-16是unicode的preferred encoding.

UTF-32, 仅��用了(ji��n)unicode范围(0�?x10FFFF)�?2位编�? 相当于UCS-4的子�?

UTF与unicode的关�p?

Unicode是一个字�W�集, 可以看作为内�?
而UTF是一�U�编码方�? 它的出现是因为unicode不适宜在某些场合直接传输和处理. UTF-16直接��是unicode�~�码, 没有变换, 但它包含�?x00在编码内, �?56字节码的�W�一个byte都是0x00, 在操作系�l?C语言)中有�Ҏ(gu��)��意义, �?x��)引起问�? 采用UTF-8�~�码对unicode的直接编码作些变换可以避免这问题, �q�带来一些优�?

中国国标�~�码:

GB 13000: 完全�{�同于ISO 10646-1/Unicode 2.1, 今后也将随ISO 10646/Unicode的标准更改而同步更�?

GBK: 对GB2312的扩�? 以容�U�GB2312字符集范围以外的Unicode 2.1的统一汉字部分, �q�且增加�?ji��n)部分unicode中没有的字符.

GB 18030-2000: ��Z��GB 13000, 作�ؓ(f��)Unicode 3.0的GBK扩展版本, 覆盖�?ji��n)所有unicode�~�码, ��C��{�同于UTF-8, UTF-16, 是一�U�unicode�~�码形式. 变长�~�码, 用单字节/双字�?4字节对字�W�编�? GB18030向下兼容GB2312/GBK.
GB 18030是中国所有非手持/嵌入式计��机�pȝ��的强制实施标�?

-------------------------------

什么是 UCS �?ISO 10646?

国际标准 ISO 10646 定义�?通用字符�?(Universal Character Set, UCS). UCS 是所有其他字�W�集标准的一个超�? 它保证与其他字符集是双向兼容�? ��是�? 如果你将��M��文本字符串翻译到 UCS格式, 然后再翻译回原编�? 你不�?x��)丢�׃�Q何信�?

UCS 包含�?ji��n)用于表达所有已知语�a�的字�W? 不仅包括拉丁�?希腊�? 斯拉夫语,希伯来语,阿拉伯语,亚美��g��语和乔治亚语的描�q? �q�包括中�? 日文和韩文这��L(f��ng)��象�Ş文字, 以及(qi��ng) �q�_��? 片假�? 孟加拉语, 旁遮普语果鲁�I�奇字符(Gurmukhi), 泰米��?d��ng)�? �?埃纳徯��(Kannada), Malayalam, 泰国�? 老挝�? 汉语拼音(Bopomofo), Hangul, Devangari, Gujarati, Oriya, Telugu 以及(qi��ng)其他��C��C��清的�? 对于�q�没有加入的语言, �׃��正在研究怎样在计��机中最好地�~�码它们, 因而最�l�它们都��被加入. �q�些语言包括 Tibetian, 高棉�? Runic(古代北欧文字), 埃塞俄比亚语, 其他象�Ş文字, 以及(qi��ng)各种各样的印-�Ƨ语�pȝ��语言, �q�包括挑选出来的艺术语言比如 Tengwar, Cirth �?克林贡语(Klingon). UCS �q�包括大量的囑�Ş�? 印刷用的, 数学用的和科学用的符�? 包括所有由 TeX, Postscript, MS-DOS�Q�MS-Windows, Macintosh, OCR 字体, 以及(qi��ng)许多其他字处理和出版�pȝ��提供的字�W?

ISO 10646 定义�?ji��n)一�?31 位的字符�? 然�? 在这巨大的编码空间中, �q�今为止只分配了(ji��n)�?65534 个码�?(0x0000 �?0xFFFD). �q�个 UCS �?16位子集称�?基本多语�a��?(Basic Multilingual Plane, BMP). ��被�~�码�?16 �?BMP 以外的字�W�都属于非常�Ҏ(gu��)��的字�W?比如象�Ş文字), 且只有专家在历史和科学领域里才会(x��)用到它们. 按当前的计划, ��来也许再也不会(x��)有字�W�被分配��C�� 0x000000 �?0x10FFFF �q�个覆盖�?ji��n)超�q?100 万个潜在的未来字�W�的 21 位的�~�码�I�间以外��M��(ji��n). ISO 10646-1 标准�W�一�ơ发表于 1993 �q? 定义�?ji��n)字�W�集�?BMP 中内容的架构. 定义 BMP 以外的字�W�编码的�W�二部分 ISO 10646-2 正在准备�? 但也许要�q�好几年才能完成. 新的字符仍源源不断地加入�?BMP �? 但已�l�存在的字符是稳定的且不�?x��)再改变�?

UCS 不仅�l�每个字�W�分配一个代�? 而且赋予�?ji��n)一个正式的名字. 表示一�?UCS �?Unicode 值的十六�q�制�? 通常在前面加�?"U+", ��p�� U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 �?U+007F �?US-ASCII(ISO 646) 是一致的, U+0000 �?U+00FF �?ISO 8859-1(Latin-1) 也是一致的. �?U+E000 �?U+F8FF, 已经 BMP 以外的大范围的编码是为私用保留的.

什么是�l�合字符?

UCS里有些编码点分配�l�了(ji��n) �l�合字符.它们�c�M��于打字机上的无间隔重音键. 单个的组合字�W�不是一个完整的字符. 它是一个类��g��重音�W�或其他指示标记, 加在前一个字�W�后�? 因�? 重音�W�可以加在�Q何字�W�后�? 那些最重要的被加重的字�W? ��p��普通语�a�的正字法(orthographies of common languages)里用到的那种, �?UCS 里都有自��q��位置, 以确保同老的字符集的向后兼容�? 既有自己的编码位�|? 又可以表�C�Zؓ(f��)一个普通字�W�跟随一个组合字�W�的被加重字�W? 被称�?预作字符(precomposed characters). UCS 里的预作字符是�ؓ(f��)�?ji��n)同没有预作字符的旧�~�码, 比如 ISO 8859, 保持向后兼容性而设�? �l�合字符机制允许在�Q何字�W�后加上重音�W�或其他指示标记, �q�在�U�学�W�号中特别有�? 比如数学方程式和国际��x��字母, 可能�?x��)需要在一个基本字�W�后�l�合上一个或多个指示标记.

�l�合字符跟随着被修饰的字符. 比如, 徯��中的元音变音字符 ("拉丁大写字母A 加上分音�W?), 既可以表�C�Zؓ(f��) UCS �?U+00C4 的预作字�W? 也可以表�C�成一个普�?"拉丁大写字母A" 跟着一�?�l�合分音�W?:U+0041 U+0308 �q�样的组�? 当需要堆叠多个重音符, 或在一个基本字�W�的上面和下面都要加上组合标记时, 可以使用多个�l�合字符. 比如在泰国文�? 一个基本字�W�最多可加上两个�l�合字符.

什么是 UCS 实现�U�别?

不是所有的�pȝ��都需要支持象�l�合字符�q�样�?UCS 里所有的先进机制. 因此 ISO 10646 指定�?ji��n)下列三�U�实现��?

�U�别1
不支持组合字�W�和 Hangul Jamo 字符 (一�U�特别的, 更加复杂的韩国文的编�? 使用两个或三个子字符来编码一个韩文音�?
�U�别2
�c�M��于��?, 但在某些文字�? 允许一列固定的�l�合字符 (例如, 希伯来文, 阿拉伯文, Devangari, 孟加拉语, 果鲁�I�奇�? Gujarati, Oriya, 泰米��?d��ng)�? Telugo, �?埃纳徯��, Malayalam, 泰国语和老挝�?. 如果没有�q�最��L(f��ng)��的几个组合字�W? UCS ��׃��能完整地表达�q�些语言.
�U�别3
支持所有的 UCS 字符, 例如数学家可以在��L��一个字�W�上加上一�?tilde(颚化�W�号,西班牙语字母上面的～)或一个箭�?或两者都�?.

什么是 Unicode?

历史�? 有两个独立的, 创立单一字符集的��试. 一个是国际标准化组�l?ISO)�?ISO 10646 ��目, 另一个是�?一开始大多是��国�?多语�a�软�g刉��商�l�成的协�?x��)组�l�的 Unicode ��目. �q�运的是, 1991�q�前�? 两个��目的参与者都认识�? 世界不需要两个不同的单一字符�? 它们合�ƈ双方的工作成�? �q��ؓ(f��)创立一个单一�~�码表而协同工�? 两个��目仍都存在�q�独立地公布各自的标�? �?Unicode 协会(x��)�?ISO/IEC JTC1/SC2 都同意保�?Unicode �?ISO 10646 标准的码表兼�? �q�紧密地共同调整��M��未来的扩�?

那么 Unicode �?ISO 10646 不同在什么地�?

Unicode 协会(x��)公布�?Unicode 标准严密地包含了(ji��n) ISO 10646-1 实现�U�别3的基本多语言�? 在两个标准里所有的字符都在相同的位�|��ƈ且有相同的名�?

Unicode 标准额外定义�?ji��n)许多与字符有关的语义符号�? 一般而言是对于实现高质量的印刷出版系�l�的更好的参�? Unicode 详细说明�?ji��n)绘制某些语�a�(比如阿拉伯语)表达形式的算�? 处理双向文字(比如拉丁与希伯来文�؜合文�?的算法和排序与字�W�串比较所需的算�? 以及(qi��ng)其他许多东西.

另一斚w��, ISO 10646 标准, ��p��q��ؓ(f��)人知�?ISO 8859 标准一�? 只不�q�是一个简单的字符集表. 它指定了(ji��n)一些与标准有关的术�? 定义�?ji��n)一些编码的别名, �q�包括了(ji��n)规范说明, 指定�?ji��n)怎样使用 UCS �q�接其他 ISO 标准的实�? 比如 ISO 6429 �?ISO 2022. �q�有一些与 ISO 紧密相关�? 比如 ISO 14651 是关�?UCS 字符串排序的.

考虑�?Unicode 标准有一个易记的名字, 且在��M��好的书店里的 Addison-Wesley 里有, 只花�?ISO 版本的一��部�? 且包括更多的辅助信息, 因而它成�ؓ(f��)使用�q�泛得多的参考也��׃��ؓ(f��)奇了(ji��n). 然�? 一般认�? 用于打印 ISO 10646-1 标准的字体在某些斚w��的质量要高于用于打印 Unicode 2.0�? 专业字体设计者��L��被徏议说要两个标准都实现, 但一些提供的样例字�Ş有显著的区别. ISO 10646-1 标准同样使用四种不同的风格变体来昄��表意文字如中�? 日文和韩�?(CJK), �?Unicode 2.0 的表里只有中文的变体. �q�导致了(ji��n)普遍的认�?Unicode �Ҏ(gu��)��本用��h��说是不可接收的传�? ��管是错误的.

什么是 UTF-8?

首先 UCS �?Unicode 只是分配整数�l�字�W�的�~�码�? 现在存在好几�U�将一串字�W�表�C�Zؓ(f��)一串字节的�Ҏ(gu��)��. 最显而易见的两种�Ҏ(gu��)��是将 Unicode 文本存储�?2 �?�?4 个字节序列的�? �q�两�U�方法的正式名称分别�?UCS-2 �?UCS-4. 除非另外指定, 否则大多数的字节都是�q�样�?Bigendian convention). ��一�?ASCII �?Latin-1 的文件�{换成 UCS-2 只需��单地在每�?ASCII 字节前插�?0x00. 如果要�{换成 UCS-4, 则必��d��每个 ASCII 字节前插入三�?0x00.

�?Unix 下��?UCS-2 (�?UCS-4) �?x��)导致非�怸�重的问题. 用这些编码的字符串会(x��)包含一些特�D�的字符, 比如 '\0' �?'/', 它们�?文�g名和其他 C 库函数参数里都有特别的含�? 另外, 大多��C��?ASCII 文�g�?UNIX 下的工具, 如果不进行重大修�Ҏ(gu��)��无法��d�� 16 位的字符�? ��Z��q�些原因, 在文件名, 文本文�g, 环境变量�{�地�? UCS-2 不适合作�ؓ(f��) Unicode 的外部编�?

�?ISO 10646-1 Annex R �?RFC 2279 里定义的 UTF-8 �~�码没有�q�些问题. 它是�?Unix 风格的操作系�l�下使用 Unicode 的明昄��Ҏ(gu��)��.

UTF-8 有一下特�?

UCS 字符 U+0000 �?U+007F (ASCII) 被编码�ؓ(f��)字节 0x00 �?0x7F (ASCII 兼容). �q�意味着只包�?7 �?ASCII 字符的文件在 ASCII �?UTF-8 两种�~�码方式下是一��L(f��ng)��.
所�?>U+007F �?UCS 字符被编码�ؓ(f��)一个多个字节的�? 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作��Z�Q何其他字�W�的一部分.
表示�?ASCII 字符的多字节串的�W�一个字节��L��?0xC0 �?0xFD 的范围里, �q�指�?gu��)��个字�W�包含多��个字节. 多字节串的其余字节都�?0x80 �?0xBF 范围�? �q��得重新同步非常容�? �q��ɾ~�码无国�? 且很��受丢失字节的媄(ji��ng)�?
可以�~�入所有可能的 2³¹�?UCS 代码
UTF-8 �~�码字符理论上可以最多到 6 个字节长, 然�?16 �?BMP 字符最多只用到 3 字节�?
Bigendian UCS-4 字节串的排列��序是预定的.
字节 0xFE �?0xFF �?UTF-8 �~�码中从未用�?

下列字节串用来表�C�Z��个字�W? 用到哪个串取决于该字�W�在 Unicode 中的序号.

U-00000000 - U-0000007F: 0xxxxxxx

U-00000080 - U-000007FF: 110xxxxx 10xxxxxx

U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx 的位�|�由字符�~�码数的二进制表�C�的位填�? ��靠右的 x ��h��少的特�D�意�? 只用最短的那个��_��表达一个字�W�编码数的多字节�? 注意在多字节串中, �W�一个字节的开�?1"的数目就是整个串中字节的数目.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权�W�号) �?UTF-8 里的�~�码�?

11000010 10101001 = 0xC2 0xA9

而字�W?U+2260 = 0010 0010 0110 0000 (不等�? �~�码�?

11100010 10001001 10100000 = 0xE2 0x89 0xA0

�q�种�~�码的官方名字拼写�ؓ(f��) UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在�Q何文档中用其他名�?(比如 utf8 �?UTF_8) 来表�C?UTF-8, 当然除非你指的是一个变量名而不是这�U�编码本�w?

什么编�E�语�a�支持 Unicode?

在大�U?1993 �q�之后开发的大多数现代编�E�语�a�都有一个特别的数据�c�d��, 叫做 Unicode/ISO 10646-1 字符. �?Ada95 中叫 Wide_Character, �?Java 中叫 char.

ISO C 也详�l�说明了(ji��n)处理多字节编码和宽字�W?(wide characters) 的机�? 1994 �q?9 �?Amendment 1 to ISO C 发表时又加入�?ji��n)更�? �q�些机制主要是�ؓ(f��)各类东亚�~�码而设计的, 它们比处�?UCS 所需的要健壮得多. UTF-8 �?ISO C 标准调用多字节字�W�串的编码的一个例�? wchar_t �c�d��可以用来存放 Unicode 字符.

dreamstone 2006-11-28 01:11 发表评论

dreamstone — Thu, 21 Sep 2006 17:15:00 GMT

现实中经常有�q�样的问题，我们要从很多东西里边扑ֈ�一个东西，而这些东西有很多别名�Q�例如地炏V��如

何实现模�p�查扑֑��Q?/p>

说到查找��p��考虑�q�样的问题，效率�Q�模�p�查找。说到效率hash表肯定是一�U�很好的解决�Ҏ(gu��)��?br />但是如何实现模糊查找呢？一�U�最��单的�Ҏ(gu��)��是这栗��利用hashmap提高效率
�Ҏ(gu��)��一�Q?br />构造一��|��(w��i)�Q�每个节点包含一个map�Q�每个map中放着的是很多个节�?br />因�ؓ(f��)别名是汉字，我们使用汉字的unicode�Q�唯一)作�ؓ(f��)key�Q�value��是包含�q�个字的节点。比�?br />中国�?>A
中华人民共和�?>B
构造这样一个树(w��i) ,rootMap(key=�?value=node1)-->

(t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng)|-(key=�?value=node2)-->node2包含map2(key=�?value=A) (t��ng)
node1包含map1-- |
(t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng) (t��ng)|-(key=�?value=node3)-->node3包含map3(key=�?value=node4)-->node4

包含map4(key�Q�民 value=node5)-->node5包含map5以此�c�L��Q�这样就建立�?ji��n)一个树(w��i)型结�?/p>

输入“中”，直接把属于中的一支拿出来
输入“中华”把属于中华的一支拿出来�?br />但是事实证明�q�个�Ҏ(gu��)��是个不好的办�?因�ؓ(f��)存在以下问题�?br />1,当别名达�?0000多个的时候占用内�?00m也就是说�Q�空间消耗大
2,当第一个字不准��的时候，模糊查询失效
虽然有改�q�方法，但是改进�I�间不大

�Ҏ(gu��)��二：(x��)
�Ҏ(gu��)��二来源于选�D的思想�Q�所以用人来代替地名更合适，比如说有10个�h�Q�每个�h都有很多的名字，
姓名�Q�字�Q��^名，曄��名等�{?/p>

虽然别名是多的，但是真是地点��是比较?y��u)��的�Q�徏立一�?0长度的数�l�，把这些�h�~�号�Q?br />你输入一些字例如“舒�?ji��n)春舍于”，来投��，我把你输入的字一个一个去查找�Q?br />先查扑ֈ�名包含“舒”的所有�h�Q�每人投一��，
再查扑ֈ�名包含“庆(ji��n)”的所有�h�Q�每人投一��，
再查扑ֈ�名包含“春”的所有�h�Q�每人投一��，
依此�c�L��Q�最后我�?0个�h中找出票数最多的�?/p>

�q�个的优点：(x��)
模糊查询更有效，占用内存更少�Q�减��交互（用户可以多输入一些相关信息）(j��)�Q�一定能查到�l�果(相对�?
注：(x��)��Z��么要减少交互呢，因�ؓ(f��)有些情况下交互越��越好（例如短信�Q�因为收费和录入�ȝ��(ch��)的原因）(j��)
�~�点�Q?br />1,因�ؓ(f��)操作多，查询多，效率低下
2,当实际的“�h”变的非常多的时候，出现�I�间不��?/p>

但是�q�个�Ҏ(gu��)��的可优化性很强，因�ؓ(f��)��Z��取名字是有规律的�Q�用到的字可能很多，常用字却很少�Q?br />所以我们可以把一些常用字对应的�h先查出来�Q�在查询的时候直接��用这些结果。这��L(f��ng)��?��p��得到优化
对于�~�点2,我们可以实现�q�样的方法，默认不徏立�Q何数�l�，建立一个空map,当这个�h被第一�ơ投��的时候他�q�入map�Q�这��P��那些被投0��的人就不会(x��)�q�入�Q�大大减��了(ji��n)�I�间��费�Q�但是如果被投票的�h很多呢可以模仿内存的实现方式�Q�实现部分存到硬盘，采取换入换出的方式，因�ؓ(f��)每个人都得到�q�_��数的机�?x��)很��，大部分时候是某些人得到大多数的票�Q�所以换入换出应该不是很频繁�Q�问题二也得��C��(ji��n)一定程度的解决�?/p>

(t��ng)

dreamstone 2006-09-22 01:15 发表评论

最大公�U�数

dreamstone — Thu, 21 Sep 2006 16:12:00 GMT

今天一�ơ无意的思考中惌��v�?ji��n)最大公�U�数�Q�想一下最大公�U�数的算法，�W�一反映是穷举，然后是短除，�?/p>

之后��想不到别的�?ji��n)，但是在模�p�记忆中�q�应�Ҏ(gu��)��个别的，于是��L��覆去的想�Q�忽然好像有个脚�Ƨ几里得

��法的东西，但具体内容全部和饭一起吃�?ji��n)，哎！google一下，发现果然是这个。实现方�?br /> (t��ng)�I��D
(t��ng)public static int getNumOne(int m,int n){
(t��ng) (t��ng)int num=Math.abs(m-n);
(t��ng) (t��ng)if (num > m){
(t��ng) (t��ng) (t��ng)num=m;
(t��ng) (t��ng)}
(t��ng) (t��ng)if(num >n){
(t��ng) (t��ng) (t��ng)num=n;
(t��ng) (t��ng)}
(t��ng) (t��ng)for(int i=num;i>0;i--){
(t��ng) (t��ng) (t��ng)if(m%i==0 && n%i==0){
(t��ng) (t��ng) (t��ng) (t��ng)num=i;
(t��ng) (t��ng) (t��ng) (t��ng)break;
(t��ng) (t��ng) (t��ng)}
(t��ng) (t��ng)}
(t��ng) (t��ng)return num;
(t��ng)}
(t��ng)�Ƨ几里得
(t��ng)public static int getNumTwo(int m,int n){
(t��ng) (t��ng)int num=1;
(t��ng) (t��ng)if(m>n){
(t��ng) (t��ng) (t��ng)num=getNumTwo(m-n,n);
(t��ng) (t��ng)}else if(m (t��ng) (t��ng) (t��ng)num=getNumTwo(n-m,m);
(t��ng) (t��ng)}else if(m==n){
(t��ng) (t��ng) (t��ng)num=n;
(t��ng) (t��ng)}
(t��ng) (t��ng)return num;
(t��ng)}
(t��ng)改进��法
(t��ng)public static int getNumThree(int m,int n){
(t��ng) (t��ng)int num=1;
(t��ng) (t��ng)while(num>0){
(t��ng) (t��ng) (t��ng)num=m%n;
(t��ng) (t��ng) (t��ng)m=n;
(t��ng) (t��ng) (t��ng)n=num;
(t��ng) (t��ng)}
(t��ng) (t��ng)return m;
(t��ng)}

dreamstone 2006-09-22 00:12 发表评论

中文字符集与字符�~�码的基��知识 �Q��{载）(j��)

dreamstone — Wed, 20 Sep 2006 13:41:00 GMT

中文字符集与字符�~�码的基��知识

字符是各�U�文字和�W�号的�ȝ��Q�包括各国家文字、标点符受��图形符受��数字等。字�W�集是多个字�W�的集合�Q�字�W�集�U�类较多�Q�每个字�W�集包含的字�W�个��C��同，常见字符集名�U�ͼ�(x��)ASCII字符集、GB2312字符集、BIG5字符集�?GB 18030字符集、Unicode字符集等。计��机要准��的处理各种字符集文字，需要进行字�W�编码，以便计算��够识别和存储各种文字�?/p>

中文文字数目大，而且�q�分为简体中文和�J�体中文两种不同书写规则的文字，而计��机最初是按英语单字节字符设计的，因此�Q�对中文字符�q�行�~�码�Q�是中文信息交流的技术基��。本文将按照字符集的旉��序讨论几种典型的字�W�集�Q�选取几种代表性的中文字符集，研究历史由来、特炏V��技术特征�?/p>

ASCII 字符�?/strong>

1�Q�名�U�的由来

ASCII�Q�American Standard Code for Information Interchange�Q�美国信息互换标准代码）(j��)是基于罗马字母表的一套电(sh��)脑编码系�l��?/p>
2�Q�特�?/p>
它主要用于显�C�现代英语和其他西欧语言。它是现今最通用的单字节�~�码�pȝ��Q��ƈ�{�同于国际标准ISO 646�?/p>
3�Q�包含内�?/p>
控制字符�Q�回车键、退根{��换行键�{��?/p>
可显�C�字�W�：(x��)英文大小写字�W�、阿拉伯数字和西文符�?/p>
4�Q�技术特�?/p>
7位（bits�Q�表�C�Z��个字�W�，�?28字符

5�Q�ASCII扩展字符�?/p>
7位编码的字符集只能支�?28个字�W�，��Z��(ji��n)表示更多的欧�z�常用字�W�对ASCII�q�行�?ji��n)扩展，ASCII扩展字符集��?位（bits�Q�表�C�Z��个字�W�，�?56字符�?/p>
ASCII扩展字符集比ASCII字符集扩充出来的�W�号包括表格�W�号、计��符受��希腊字母和�Ҏ(gu��)��的拉丁符受��?

GB2312 字符�?/strong>

(t��ng)1�Q�名�U�的由来

GB2312又称为GB2312-80字符集，全称为《信息交换用汉字�~�码字符集·基本集》，由原中国国家标准��d��发布�Q?981�q?�?日实施�?/p>
2�Q�特�?/p>
GB2312是中国国家标准的��体中文字�W�集。它所收录的汉字已�l�覆�?9.75%的��用频率，基本满��?ji��n)汉字的计算机处理需要。在中国大陆和新加坡获广泛��用�?/p>
3�Q�包含内�?/p>
GB2312收录��化汉字及(qi��ng)一般符受��序受��数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符受��汉语注韛_��母，�?7445 个图形字�W�。其中包�?763个汉字，其中一�U�汉�?755个，二��汉字3008个；包括拉丁字母、希腊字母、日文��^假名�?qi��ng)片假名字母、俄语西里尔字母在内�?82个全角字�W��?

4�Q�技术特�?/p>
�Q?�Q�分��C�：(x��)

GB2312中对所收汉字进行了(ji��n)“分区”处理，每区含有94个汉�?�W�号。这�U�表�C�方式也�U�Cؓ(f��)��Z��码�?/p>
各区包含的字�W�如下：(x��)01-09��Zؓ(f��)�Ҏ(gu��)��W�号�Q?6-55��Zؓ(f��)一�U�汉字，按拼��x��序；56-87��Zؓ(f��)二��汉字�Q�按部首/�W�画排序�Q?0-15区及(qi��ng)88-94区则未有�~�码�?/p>
�Q?�Q�双字节表示

两个字节中前面的字节为第一字节�Q�后面的字节为第二字节。习(f��n)惯上�U�第一字节为“高字节�?�Q�而称�W�二字节为“低字节”�?/p>
“高位字节”��用了(ji��n)0xA1-0xF7(�?1-87区的区号加上0xA0)�Q�“低位字节”��用了(ji��n)0xA1-0xFE(�?1-94加上0xA0)�?/p>
5�Q�编码�D�?/p>
以GB2312字符集的�W�一个汉字“啊”字��Z��Q�它的区�?6�Q�位�?1�Q�则��Z��码是1601�Q�在大多数计��机�E�序中，高字节和低字节分别加0xA0得到�E�序的汉字处理编�?xB0A1。计��公式是�Q?xB0=0xA0+16, 0xA1=0xA0+1�?/p>
BIG5 字符�?/strong>

1�Q�名�U�的由来

又称大五码或五大码，1984�q�由台湾财团法�h信息工业�{�进�?x��)和五间软�g公司宏碁 (Acer)、神�?(MiTAC)、佳佟뀁零�?(Zero One)、大�?(FIC)创立�Q�故�U�大五码�?/p>
Big5码的产生�Q�是因�ؓ(f��)当时台湾不同厂商各自推出不同的编码，如倚天码、IBM PS55、王安码�{�，彼此不能兼容�Q�另一斚w��Q�台湾政府当时尚未推出官方的汉字�~�码�Q�而中国大陆的GB2312�~�码亦未有收录繁体中文字�?/p>
2�Q�特�?/p>
Big5字符集共收录13,053个中文字�Q�该字符集在中国台湾使用。耐�h��d��的是该字�W�集重复地收录了(ji��n)两个相同的字�Q�“兀�?0xA461�?xC94A)、“嗀�?0xDCD1�?xDDFC)�?/p>
3�Q�字�W�编码方�?/p>
Big5码��用了(ji��n)双字节储存方法，以两个字节来�~�码一个字。第一个字节称为“高位字节”，�W�二个字节称为“低位字节”。高位字节的�~�码范围0xA1-0xF9�Q�低位字节的�~�码范围0x40-0x7E�?xA1-0xFE�?/p>
各编码范围对应的字符�c�d��如下�Q?xA140-0xA3BF为标点符受��希腊字母及(qi��ng)�Ҏ(gu��)��W�号�Q�另外于0xA259-0xA261�Q�存放了(ji��n)双音节度量衡单位用字�Q�兙兛兞兝兡兣嗧瓩糎�Q?xA440-0xC67E为常用汉字，先按�W�划再按部首排序�Q?xC940-0xF9D5为次常用汉字�Q�亦是先按笔划再按部首排序�?/p>
4�Q�Big5 的局限�?/p>
��管Big5码内包含一万多个字�W�，但是没有考虑�C�会(x��)上流通的人名、地名用字、方�a�用字、化学及(qi��ng)生物�U�等用字�Q�没有包含日文��^假名�?qi��ng)片假名字母�?/p>
例如台湾视“着”�ؓ(f��)“著”的异体字，故没有收录“着”字。康熙字�怸�的一些部首用�?如“亠”、“疒”、“��R”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中�?/p>
GB18030 字符�?/strong>

1�Q�名�U�的由来

GB 18030的全�U�是GB18030-2000《信息交换用汉字�~�码字符集基本集的扩充》，是我国政府于2000�q?�?7日发布的新的汉字�~�码国家标准�Q?001�q?�?1日后在中国市(j��ng)��Z��发布的��Y件必��ȝ��合本标准

2�Q�特�?/p>
GB 18030字符集标准的出台�l�过�q�泛参与和论证，来自国内外知名信息技术行业的公司�Q�信息��业部和原国家质量技术监督局联合实施�?/p>
GB 18030字符集标准解��x��字、日文假名、朝鲜语和中国少数民族文字组成的大字�W�集计算机编码问题。该标准的字�W��ȝ��码空间超�q?50万个�~�码位，收录�?7484个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。满��中国大陆、香港、台湾、日本和韩国�{�东亚地��Z��息交换多文种、大字量、多用途、统一�~�码格式的要求。�ƈ且与Unicode 3.0版本兼容�Q�填补Unicode扩展字符字汇“统一汉字扩展A”的内容。�ƈ且与以前的国家字�W�编码标准（GB2312�Q�GB13000.1�Q�兼宏V�?/p>
3�Q�编码方�?/p>
GB 18030标准采用单字节、双字节和四字节三种方式对字�W�编码。单字节部分使用0×00�?×7F�?对应于ASCII码的相应�?。双字节部分�Q�首字节码从0×81�?×FE�Q�尾字节码位分别�?×40�?×7E�?×80�?×FE。四字节部分采用GB/T 11383未采用的0×30�?×39作�ؓ(f��)对双字节�~�码扩充的后�~��Q�这��h��充的四字节编码，其范围�ؓ(f��)0×81308130�?×FE39FE39。其中第一、三个字节编码码位均�?×81�?×FE�Q�第二、四个字节编码码位均�?×30�?×39�?/p>
4�Q�包含的内容

双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有��x��点符受��表意文字描�q�符13个、增补的汉字和部�?构�g80个、双字节�~�码的欧元符��L(f��ng)��。　　四字节部分收录了(ji��n)上述双字节字�W�之外的�Q�包括CJK�l�一汉字扩充A在内的GB 13000.1中的全部字符�?/p>
Unicode字符�?/strong>

1�Q�名�U�的由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字�W�集的简�U�ͼ�是由一个名�?Unicode 学术学会(x��)(Unicode Consortium)的机构制订的字符�~�码�pȝ��Q�支持现今世界各�U�不同语�a�的书面文本的交换、处理及(qi��ng)昄��。该�~�码�?990�q�开始研发，1994�q�正式公布，最新版本是2005�q?�?1日的Unicode 4.1.0�?/p>
2�Q�特�?

Unicode是一�U�在计算��Z��使用的字�W�编码。它为每�U�语�a�中的每个字符讑֮��?ji��n)统一�q�且唯一的二�q�制�~�码�Q�以满��跨语�a�、跨�q�_��q�行文本转换、处理的要求�?/p>
3�Q�编码方�?/p>
Unicode 标准始终使用十六�q�制数字�Q�而且在书写时在前面加上前�~�“U+”，例如字母“A”的�~�码�?004116 和字�W��?”的�~�码�?20AC16。所以“A”的�~�码书写为“U+0041”�?/p>
4�Q�UTF-8 �~�码
UTF-8是Unicode的其中一个��用方式�?UTF�?Unicode Translation Format�Q�即把Unicode转做某种格式的意思�?/p>
UTF-8便于不同的计��机之间使用�|�络传输不同语言和编码的文字�Q��得双字节的Unicode能够在现存的处理单字节的�pȝ��上正��传输�?/p>
UTF-8使用可变长度字节来储�?Unicode字符�Q�例如ASCII字母�l�箋使用1字节储存�Q�重��x��字、希腊字母或襉K��?d��ng)字母等使�?字节来储存，而常用的汉字��p��使用3字节。辅助��^面字�W�则使用4字节�?/p>
5�Q�UTF-16 �?UTF-32 �~�码
UTF-32、UTF-16 �?UTF-8 �?Unicode 标准的编码字�W�集的字�W�编码方案，UTF-16 使用一个或两个未分配的 16 位代码单元的序列�?Unicode 代码点进行编码；UTF-32 卛_��每一�?Unicode 代码点表�C�Zؓ(f��)相同值的 32 位整�?/p>

dreamstone 2006-09-20 21:41 发表评论

互斥

dreamstone — Wed, 20 Sep 2006 13:32:00 GMT

互斥的几�U�实现方式：(x��)
一�Q�忙�{�待互斥
1,��止中断
2,锁变�?br />3,严格的轮�?br />4,peterson��法
5,Tsl
忙等待存在着各种各样的问题，一个最大的问题使消耗cpu�Q�另外容器��生各�U�错误。而且�q�可能出��C��先��反�{问题�Q�所以忙�{�待�q�不是很好的办法

(t��ng)互斥2-生��者消费者（原始状态）(j��)

一�Q�休眠与唤醒
1,�l�典的生产者与消费者问�?br />生��者消费者现象的原型是这��L(f��ng)��Q?br />一个生产者生产，当缓冲区满了(ji��n)�Q�就自己休眠
一个消费者消费，当缓冲区�I�Z��(ji��n)�Q�就自己休眠

一个生产者生产，当生产一个��品时�Q�就唤醒消费者（可以消费�?ji��n)�?j��)
一个消费者消费，当消费一个��品时�Q�就唤醒生��者（可以生��?

无论是生产者，�q�是消费着�Q�当被唤醒的时候不一定马上执行，�q�需要获得cpu

◎这�U�设计��生了(ji��n)一个问题，原因是需要一个count来记录��品个敎ͼ�而count的获得�ƈ没有互斥
例如如下情况�Q?br />消费者取得count=0�Q�但是还没来得及(qi��ng)休眠自己的时候，发生�?ji��n)系�l�进�E�调度，切换到生产�?br />生��者生产了(ji��n)一个��品后�Q�唤醒消费者，但是�q�个时候的消费者�ƈ没有休眠�Q�所以唤醒丢�?br />然后生��者��l�生产，直到�~�冲满了(ji��n)�Q�自动休眠�?br />但是�q�个时候的消费者也是休眠状态，没有人来唤醒他，所以两个都一直休眠下厅R�?/p>

解决�Ҏ(gu��)��Q?br />提供一个标志位�Q�当生��者发送唤醒给消费者的时候，记录下来�?�Q�当消费者要休眠之前��(g��)查一下这个标志位�Q�如果是1��׃��休眠�Q�如果不是就休眠
�q�个�Ҏ(gu��)��暂时解决�?ji��n)问题，考虑一下�?br />如果是m个生产者，n个消费�?m,n又很大的情况下，标志位就太多�?ji��n)�?br />�q�种情况下情况下地解军_��法见下一��文�?<互斥3-生��者消费�?gt;

�q�个�Ҏ(gu��)��地实现程序如�?
#define N=100
int count=0;
void product(void){
(t��ng)int item;
(t��ng)while(TRUE){
(t��ng) (t��ng)item=produce_item()
(t��ng) (t��ng)if(count==N)sleep();
(t��ng) (t��ng)insert_item(item);
(t��ng) (t��ng)count=count+1;
(t��ng) (t��ng)if (count==1)wakeup(consumer);
(t��ng)}
}
void consumer(void){
(t��ng)int item;
(t��ng)while(TRUE){
(t��ng) (t��ng)if(count==0)sleep();
(t��ng) (t��ng)item=remove_item();
(t��ng) (t��ng)count=count-1;
(t��ng) (t��ng)if(count==N-1)wakeup(product);
(t��ng) (t��ng)consume_item(item);
(t��ng)}
} (t��ng)

dreamstone 2006-09-20 21:32 发表评论

�l�典IPC问题�Q�哲学家�q�餐�Q?

dreamstone — Wed, 20 Sep 2006 13:30:00 GMT

问题�Q?br />有五个哲学家�Q?br />每个哲学安��前有一盘面
每个哲学家左叛_��有一只筷�?br />哲学家有2个状态，思考或者拿��L(f��ng)��子吃饭�?br />如果哲学家拿��C��只筷子，不能吃饭�Q�拿�?只才能吃饭�?/p>

一�Q�考虑�W�一�U�自然情况：(x��)
解法�Q�所有哲学家拿�v一只筷子，再拿旁边的一只，如果拿不到就�{�，�{�到可以拿了(ji��n)再拿
问题�Q�所有哲学家都拿起一只筷子，那就都吃不到饭，��是死锁
二，解决上边的问�?br />解法�Q�每个哲学家先拿左边的筷子，再拿双��的筷子，如果拿不到右边的�{�子�Q�就攑ּ�左边的筷子，�{�待一�D�|��间再�?br />问题�Q�试��x��有哲学家同时拿�v�{�子�Q�同时放弃，再同时拿��P��同时攑ּ�。。如此就�q�入�?ji��n)另外一�U�死循环
三，解决上边的问题：(x��)
解法�Q�在上边的情况下�Q�每�ơ等待的旉��变成随机一�D�|��_(d��)��q�样基本能解决问题，例如以太�|�的工作方式��是�q�样
问题�Q�再极少数情况下�Q�还是会(x��)出现冲突�Q�在一些要求较高的情况�Q�例如核�늫�的安全系�l�，�q�种情况试不允许出现�?br />四，最�l�解��x��法：(x��)
解法�Q��用多个互斥信号量�Q�每个哲学家在想取筷子前先执行mutex�Q�然后判断一下左右的�{�子是否有�h用，如果没有��拿��L(f��ng)��子，否则��׃��拿筷�?br />实现�E�序�Q?br />#define N 5
#define Left (i+N-1)%N
#define Right (i+1)%N
#define THINKING 0
#define HUNGRY 1
#define EATING 2
typedef int semaphore;
int state(N);
semapore mutex =1;
semaphore s(N);

void philosopher(int i){
(t��ng)while(TRUE){
(t��ng) (t��ng)think();
(t��ng) (t��ng)take_forks(i);
(t��ng) (t��ng)eat();
(t��ng) (t��ng)put_forks(i);
(t��ng)}
}
void tak_forks(int i){
(t��ng)down(&mutex);
(t��ng)state(i)=HUNGRY;
(t��ng)test(i);
(t��ng)up(&mutex);
(t��ng)down(&s[i]);
}
void put_forks(int i){
(t��ng)down(&mutex);
(t��ng)state(i)=THINK;
(t��ng)test(LEFT);
(t��ng)test(RIGHT);
(t��ng)up(&mutex);
}
void test(i){
(t��ng)if(state(i)==HUNGRY && state(LEFT)!=EATING && state(RIGHT)!=EATING){
(t��ng) (t��ng)state(i)=EATING;
(t��ng) (t��ng)up(&s[i])
(t��ng)}
}

dreamstone 2006-09-20 21:30 发表评论

死锁

dreamstone — Wed, 20 Sep 2006 13:29:00 GMT

引发死锁的条�Ӟ��(x��)
必须满��以下四种条�g
1,互斥条�g�Q�每个资源要么已�l�分配给一个进�E�，要么��是可用的�?br />2,占有�{�待条�g�Q�已�l�得��C��(ji��n)某个资源的进�E�可以再��h��新的资源
3,不可抢占条�g�Q�已�l�分配给一个进�E�的资源不能强制的被抢占�Q�只能被占有他的�q�程昄��的释�?br />4,环�\�{�待条�g�Q�死锁发生时�Q�系�l�中一定有两个或者两个以上的�q�程�l�成一环�\�Q�该环�\中的每一�?/p>

�q�程都在�{�待下一个进�E�占有的资源�?/p>

处理死锁的策略：(x��)
1,忽略该问题，你忽略它�Q�它也会(x��)忽略�?br />2,��试死锁�q�恢复，让死锁发生，��(g��)��，一旦检��到�Q�恢�?br />3,仔细对资源进行分配，动态避免死�?br />4,通过破坏四个死锁条�g之一

�Ҏ(gu��)��一对应的时鸵鸟��法�Q�就是出现这�U�死锁的可能性很低，比如操作�pȝ��的fork�Q�可�?�q�出��C��ơ，

而在�q�段�q�程中，因�ؓ(f��)��g�{�其它原因肯定要重新启动机器�Q�放弃fork损失太大�Q�就可以忽略�q�种死锁

�Q�象鸵鸟一��P��把头埋进沙子�Q�当什么都没发生�?/p>

�Ҏ(gu��)��二：(x��)��(g��)��ƈ恢复
恢复�Ҏ(gu��)��?
(t��ng)抢占恢复
(t��ng)回退恢复
(t��ng)杀死进�E�恢�?br />银行家算法：(x��)
如果�?个�h(A,B,C,D)去银行贷�ƾ，银行有金�?0个单位，
A��h��最大�ؓ(f��)6 ,A已经��h��1
B��h��最大�ؓ(f��)5 ,B已经��h��1
C��h��最大�ؓ(f��)4 ,C已经��h��2
D��h��最大�ؓ(f��)7 ,D已经��h��4
�q�个时候只有C的请求能通过�Q�因为现在还有可用贷��?�Q�只有C才能完成�Q�然后释放更多，来让其它完成
�q�个时候如果给其它��M��一个单位的��h��Q�那么所有的人都不能辑ֈ�需求，完成�?br />银行安��题时个经典的问题�Q�但是很��能得到实际的利用，因�ؓ(f��)每个客户自己都不知道自己需要多��资

源，同时�Q�也不知道有多少个客戗��因��Z��停的有用户login ,logout

�Ҏ(gu��)��四：(x��)破坏条�g
1,破坏互斥条�g�Q�不让独占出玎ͼ�
例如不让一个用��L(f��ng)��占打印机�Q�如spooling技术，让多个用户同时进入spooling
问题�Q�可能在spooling中��生死�?br />2,破坏占有�{�待条�g
��(g��)��这个进�E�需要的所有资源是不是可用�Q�如果可用分配，不可用的话就�{�待
问题�Q�进�E�要在开始知道自己需要多��资源，�q�样可以使用银行家算法完成�?br />但是资源利用不是最优�?br />3,破坏不可抢占�Q�这个实现�v来最困难
4,破坏闭环
把所有资源编��P��按照��序��h��

饥饿�Q?br />与死锁很接近的时饥饿
如果一个打印机的��用，是通过某种��法避免死锁�Q�但是每�ơ都是最��文件先打印�Q�这样就可能产生一

�U�情况，大的文�g永远不能打印�Q�饥饿而死�?/p>

dreamstone 2006-09-20 21:29 发表评论

�l�典IPC问题�Q�读者写者问�?

dreamstone — Wed, 20 Sep 2006 13:29:00 GMT

读者写者问题是建立在数据库讉K��模型上的�Q?br />例如飞机订票�pȝ��
其中多个�q�程惌��写数据库
��Z��(ji��n)保证不出错需要满��一条：(x��)
当一个进�E�写的时候，所有的其它�q�程都不能再��d��?br />实现�Ҏ(gu��)��一�Q?br />当一个写�q�程到来的时候，如果有读或者写�q�程��׃��q�入
当一个读�q�程到来的时候，如果没有读进�E�，��p��?br />也就是读可以同时�Q�写是排它的�?br />问题�Q�试��x��个读�q�程持箋5�U�，�?�U�进来一个读�q�程�Q�这样写�q�程��永�q�进不来�?br />实现�Ҏ(gu��)��二：(x��)
当一个写�q�程来的时候，它只�{�待现在正在执行的读�q�程
当一个读�q�程�q�来的时候，如果有一个写�q�程�{�待�Q�读�q�程不进�?br />也就是写�q�程优先�Q�这栯��决了(ji��n)问题�Q�但是效率低下�?/p>

相关的还有理发师问题�Q?br />

dreamstone 2006-09-20 21:29 发表评论

U-00000000 - U-0000007F:	0xxxxxxx
U-00000080 - U-000007FF:	110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF:	1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF:	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF:	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF:	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

国产婷婷一区二区,欧美久久久久久,国产精品毛片无码

看到两个写的很好的关于字�W�集,�~�码的文章，推荐大家看看�Q�另外纠正了(ji��n)一下原文中的小bug(UTF-8 UniCode UTF-16 UCS �{?

文章一�Q�本文�{载自:http://fmddlmyy.home4u.china.com/text6.html

0、big endian和little endian

1、字�W�编码、内码，��带介绍汉字�~�码

2、Unicode、UCS和UTF

2.1、内码和code page

3、UCS-2、UCS-4、BMP

4、UTF�~�码

5、UTF的字节序和BOM

什么是 UCS �?ISO 10646?

什么是�l�合字符?

什么是 UCS 实现�U�别?

什么是 Unicode?

那么 Unicode �?ISO 10646 不同在什么地�?

什么是 UTF-8?

什么编�E�语�a�支持 Unicode?

最大公�U�数

中文字符集与字符�~�码的基���知识 �Q��{载）(j��)

互斥

�l�典IPC问题�Q�哲学家�q�餐�Q?

死锁

�l�典IPC问题�Q�读者写者问�?

中文字符集与字符�~�码的基��知识 �Q��{载）(j��)