新兴XML处理�Ҏ��VTD-XML介绍

Wed, 25 Oct 2006 04:31:00 GMT

序言

本文所提及的VTD-XML�q��本文作者原创，作者只是对它进行介�l��?

问题

通常当我们提起XML的��用时�Q�最头痛的部分便是XML的verbosity与XML的解析速度�Q�当需要处理大XML文�g时这个问题便变得格外严重。我在这里提及的�Q�便是如何优化XML处理速度的话题�?

当我们选择处理XML文�g的时候，我们大致上有两种选择�Q?

DOM�Q�这是W3C的标准模型，它将XML的结构信息以树�Ş的方式构建，提供了遍历这颗树的接口与�Ҏ��?
SAX�Q�一�U�低�U�的parser�Q�逐元素的向前只读处理�Q�不含有�l�构信息�?br />以上两种选择都各有利弊，但是都不是特别好的解��x��案，它们的优�~�点如下�Q?

DOM

优点�Q�易用性强�Q�因为所有的XML�l�构信息都存在于内存中，�q�且遍历��单，支持XPath�?
�~�点�Q�Parsing速度太慢�Q�内存占用过高（原文件的5x~10x�Q�，对于大文件来说几乎不可能使用�?br />SAX

优点�Q�Parsing速度快，内存占用不与XML的大��相联系�Q�可以做到XML涨内存不涨）�?
�~�点�Q�易用性差�Q�因为没有结构信息，�q�且无法遍历�Q�不支持XPath。如果需要结构的话只能读一�Ҏ��造一点，�q�样的可�l�护性特别的差�?br />我们可以看出�Q�基本上DOM与SAX是正好相反的两个极端�Q�但是�Q何一个都不能很好的满��x��们的大部分要求，我们需要找出另外一�U�处理方法来。注意XML的效率问题�ƈ不是XML本��n的问题，而是处理XML的Parser的问题，��像我们在上面看到的两种�Ҏ��有不同的效率权衡一栗��?/p>

思�?

我们很喜�Ƣ类似DOM的��用方法，因�ؓ我们可以遍历�Q�这意味着可以支持XPath�Q�大大增��Z��易用性，但是DOM的效率很低。就像我们已�l�知道，效率问题出在处理机制上。那么，DOM到底有哪些方面媄响了它的效率呢？下面让我们来做一个全面的解剖�Q?/p>

在当今大多数��Z��虚拟机（托管�Q�或��M��c�M��机制�Q�技术的�q�_��下，对象的创建销毁是一个耗时的作业（�q�里值得主要是Garbage Collection的耗时�Q�，DOM机制中所�q�用的大量的对象创徏销毁无疑是影响其效率的原因之一�Q�会引发�q�多的Garbage Collection�Q��?
每个对象都会额外�?2bits用来存储它的内存地址�Q�当像DOM一��h��有大量对象的时候这个额外开支也是不��的�?
引�v以上两个问题的最主要的效率问题在于，DOM与SAX都是extractive parsing模式�Q�这�U�解析模式注定了DOM与SAX都需要大量的创徏�Q�销毁）对象�Q�引��h��率问题。所谓的extractive parsing��是说在解析XML�Ӟ��DOM或SAX会提取一部分原文�Ӟ��一般来说是一个字�W�串�Q�，然后在内存中�q�行解析构徏�Q�输��然就是一个或一些对象了�Q�。拿DOM�q�个例子来说�Q�DOM会将每一个element, attribute, processing-instruction, comment�{�等都解析成对象�q�给与结构，�q�就是所谓的extractive parsing�?
由extractive的问题带来的另一个问题便是更新效率，在DOM中（SAX因�ؓ不支持更新所以根本不提它�Q�，每一�ơ需要做改动�Ӟ��我们要做的就是将对象的信息再解析回XML的字�W�串�Q�注意这个解析是个完整的解析�Q�也��是��_��原文件�ƈ没有被利用，而是直接��DOM模型重新完整解析成XML字符丌Ӏ�换句话�Ԍ��也就是DOM�q�不支持Incremental Update�Q�增量更斎ͼ��?
另一个很可能不被注意到的“小”问题便是XML的编码，无论是何�U�解析方法都需要能够处理XML的编码，也就是说�Q�在��d��的时候解码，在写入的时候编码。DOM的另一个效率问题便是当我对于一个大XML只想做很��的一块儿修改的时候它也必��首先将整个文�g�q�行解码�Q�然后构建结构。无形中又是一个开销�?br />让我们来�ȝ��一下问题，��单的讲DOM的效率问题主要出在它的extractive parsing模式上（SAX也是一��P��有同��L��问题�Q�，由此引发了一�p�d��相关问题�Q�如果可以击破这些效率瓶颈的话那么可以想象XML的处理效率将�q�一步的得到提高。如果XML的易用性与处理效率得到飞跃性的提高的话�Q�那么XML的应用范��_��应用模式��得到更一步的升华�Q�或许由此可以��生出许许多多�_�ֽ�的以前连想都没有惌��的基于XML的��品来�?/p>

��\

VTD-XML便是对以上问题的思考后�l�出的答案，它是一个non-extractive XML parser�Q�由于它��的机�Ӟ��很好的解冻I��避免�Q�了上面所提出的各�U�问题，�q�且�q�“顺侎쀝带来了non-extractive的其他好处，像快速的解析与遍历、XPath的支持、Incremental Update�{�等。我�q�里有一�l�数据，取自于VTD-XML的官方网站：

VTD-XML的解析速度是SAX�Q�with NULL content handler�Q�的1.5x~2.0x。With NULL content handler的意思就是说SAX解析中没有插入�Q何额外的处理逻辑�Q�也��是SAX的最高速度�?
VTD-XML的内存占用是原XML�?.3x~1.5x�Q�其�?.0x的部分是原XML�Q?.3x~0.5x是VTD-XML占用的部分）�Q�而DOM的内存占用则是原XML�?x~10x。�D一个例子，如果一个XML的大��是50MB�Q�那么用VTD-XML��d��q�来内存占用会在65MB~75MB之间�Q�而DOM的内存占用则会在250M~500MB之间。基于这个数据用DOM处理大的XML文�g几乎是不可能的选择�?br />你可能会觉得不可思议�Q�真的可以做出比DOM易用性还好，比SAX�q�快的XML解析器吗�Q�别急着下定论，�q�是来看看VTD-XML的原理吧�Q?/p>

基本原理

��像大多数好的��品一��P��VTD-XML的原理�ƈ不复杂，而是很��y妙。�ؓ了实现non-extractive�q�个目的�Q�它��原XML文�g原封不动的以二进制的方式读进内存�Q�连解码都不做，然后在这个byte数组上解析每个element的位�|��ƈ把一些信息记录下来，之后的遍历操作便在这些保存下来的record上进行，如果需要提取XML内容��利用record中的位置�{�信息在原始byte数组上进行解码�ƈ�q�回字符丌Ӏ�这一切看��h��都很��单，但是�Q�这个简单的�q�程��有多个性能�l�节在里边，�q�且隐藏了若�q�个潜在的能力。下面我们首先来描述一下各个性能�l�节�Q?/p>

��Z��避免�q�多的对象创建，VTD-XML军_��采用原始的数值类型作为record的类型，�q�样��可以不必用heap。VTD-XML的record机制��叫做VTD�Q�Virtual Token Descriptor�Q�，VTD��性能瓉��在tokenization阶段��p��x��了真的是很��y妙很用心的做法。VTD是一�?4bits长度的数值类型，记录了每个element的�v始位�|�（offset�Q�，长度�Q�length�Q�，深度�Q�depth�Q�以及token的类型（type�Q�等信息�?
注意VTD是固定长度的�Q�官方决定用64bits�Q�，�q�样做的目的��是��Z��提高性能�Q�因为长度固定，在读取，查询�{�操作的时候格外的高效�Q�O(1)�Q�，也就是可以用数组�q�种高效的结构来�l�织VTD大大减少了因为大量��用对象而��生的性能问题�?
VTD的超能力�Q�一炚w��不夸张地��_��在于它能够��XML�q�种树�Ş的数据结构简单的变换成对一个byte数组的操作，��M��你能惌��到的对于byte数组的操作都可以应用在XML上了。这是因��取进来的XML是二�q�制的（byte数组�Q�，而VTD则记录了每个element的位�|�等讉K��用信息，当我们找到要操作的VTD的时候，只要用offset与length�{�信息就可以对原始byte数组�q�行��M��操作�Q�或者可以直接对VTD�q�行操作。�D例来��_��我想在一个大XML中找��Z��个element�q�删除它�Q�那么我只需要找到这个element的VTD�Q�遍历方法稍候再�Ԍ��Q�将�q�个VTD从VTD数组中删除，然后再利用所有的VTD写出到另一个byte数组中就可以了，因�ؓ删除的VTD标明了要删除的element的位�|�，所以在新写入的byte数组中就不会出现�q�段element了，用VTD写入新的byte数组实际上就是一个byte数组的拷贝，其效率相当的高，�q�就是所谓的增量更新�Q�incremental update�Q��?br />关于VTD-XML的遍历方式，它采用了LC (Location Cache)�Q�简单地说就是将VTD以其深度作�ؓ标准构徏的一个树形的表结构。LC的entry也是64bits长的数值类型，�?2bits代表一个VTD的烦引（index�Q�，�?2bits代表了这个VTD的第一个child的烦引。利用这些信息就可以计算��Z�Q何一个你惌��到达的位�|�了�Q�关于具体的遍历�Ҏ��请参看官方网站的文章。基于这�U�遍历方式的VTD-XML有与DOM不同的操作接口，�q�是可以理解的，�q�且�Q�VTD-XML的这�U�遍历方式可以在最��的几步内将你带��C��所需要的地方去，遍历的性能十分�H�出�?/p>

�ȝ��

��像你上面看到的�Q�VTD-XML有着�q��h的特性，而如今的1.5版本中已�l�加入了XPath的支持（只要可以遍历�Q�就可以支持XPath�Q�这是早晚的�?-)�Q�，它的实用性已�l�超��了当今我们所惌��的范围了。另一个VTD-XML的超能力�Q�就是基于它现在的处理方式，完全可以支持��来的Binary XML标准�Q��ƈ通过Binary化将XML的应用推向更高一层楼�Q�这也是我目前所期待的！:-)

不过�Q�VTD-XML仍然有许多需要改�q�与完善的地方，�q�方面值得我们努力与探讨�?/p>

��Z��提一下，VTD-XML是开源项目（GPL�Q�，目前有Java、C两种�q�_��支持。如果你惛_��.NET试一试的话徏议你使用IKVM�Q�BSD style license�Q�将VTD-XML转换�?NET�E�序集，�怿�你会喜欢上它的！;-)

非洲��白�?/a> 2006-10-25 12:31 发表评论

成人福利视频网,欧美+亚洲+精品+三区,亚洲成人观看

新兴XML处理�Ҏ��VTD-XML介绍