午夜精品www,亚洲你懂的在线视频,超碰在线免费公开

[转] 使用VTD-XML��化XML处理-克服DOM及SAX�~�点的新选择

Tue, 29 Aug 2006 05:20:00 GMT

作�?Jimmy Zhang;rainy14f(作者的blog:http://shaofan.blogjava.net/)

概要

做�ؓ下一代WEB应用的推动性技术，XML相当��单，易学易用。然而，当前的XML处理技术却非如此。Document Object Model和Simple API for XML都比较慢�Q�低效，且不易于使用。VTD-XML�Q�作��Z��一代的XML处理模型�Q�提供超��DOM和SAX的广泛用途和更佳选择�Q�不仅可以简化XML�~�程�Q�也佉K��择XML处理模型更加�Ҏ��。这��文章通过最�q�的基准��试数据和示例程序来�H�显它的关键性的技术优势，昄��出VTD-XML��可能解决长期以来困��C��业架构的�Q�在DOM和SAX之间�q�行抉择的问题�?br />
自从诞生以来的八�q�里�Q�XML作�ؓ一个开放，半结构化的数据格式和WEB应用的数据交换工��P��已取得了长��q�步。由于它的简易性和良好的可��L��，XML受到开发�h员的热烈�Ƣ迎�Q��ƈ且已�l�成��Z��企业架构不可分割的一部分�?br />
虽然很难说清XML到底有多��种不同的应用，但至��有一�Ҏ��肯定的：XML解析处理已成为各�U�工作的先决��d��。实际上�Q�决定��用哪�U�解析器也经常是企业开发者在��目中必��首先解决的问题之一。长久以来，�q�其实就是在两种 XML处理模型之间做出选择�Q�Document Object Model (DOM) �?Simple API for XML (SAX)�?br />
�_�看之下�Q�DOM和SAX各自的优�~�点刚好形成互补。DOM使用内存保存对象�l�构�Q�而SAX则基于事件�ƈ且不使用内存来存储�Q何数据。因此，DOM比较适合文档较小而数据访问模式复杂的情况�Q�相反情况下�Q�则使用SAX�?br />
然而事实却�q�不�q�么单纯。很多情况下�Q�开发者不情愿使用复杂的SAX�Q�但又不得不用，因�ؓ没有其他选择。此外，即��XML文�g的大��只是稍微大于几百K�Q�DOM的内存开销和性能�q�滞也会成�ؓ��手的障��，使得�E�序无法辑ֈ��目所要求的最低性能目标�?br />
那么是否SAX的性能真得好得多？实际上，SAX所吹嘘的解析性能――通常比DOM快几倍――常常是不现实的。事实显�C�，SAX�W�拙的，只能往前的解析不仅在��用时相当不便�Q�而且当文档结构稍微复杂时�Q�也会遇到性能问题。如果开发�h员不惛_��ơ扫描文档，那么��需要对文档�q�行�~�冲�Q�或构徏自己的对象模型�?br />
不管使用哪种�Ҏ��Q�性能都会成�ؓ问题�Q�正如Apache Axis所证明的那栗��在Axis的FAQ��面�Q�它声称使用了SAX来构建高性能的实玎ͼ�但它仍然使用了他们自��q��和DOM非常相像的对象模型。但与它的前�?(Apache SOAP) 相比�Q�这�U�做法�ƈ没有带来明显的性能提升。而且�Q�SAX无法处理XPath�Q�一般来说也无法驱动XSLT (Extensible Stylesheet Language Transformation) 的处理。因此，SAX仍然无法真正解决XML处理中的问题�?br />
��Z��L��一个更易用的SAX的取代方案，��来��多的开发�h员开使�{向StAX (Streaming API for XML)。与SAX相比�Q�StAX使用从XML文�g中提取标记的�Ҏ��Q�而不是回调。这�U�方案显著地改善了可用性，但一个基本的问题仍然存在――StAX的只能往前的解析对于�E�序员依然不便，而且存在隐藏的性能损失�?br />
底线是：��M��惛_��到广泛应用的XML处理模型�Q�必需能够完整体现XML的层�ơ结构。这是因为，XML是被设计为在WEB上传输复杂数据的�Q�因此完整展现它的结构信息也是它的�Q务之一�?/p>

VTD-XML改变了游�?/span>

假设我们要从头开始一个XML处理�q�程�Q��ƈ克服上面提到的DOM和SAX的种�U�缺点，那么�q�个新的模型应该��h��以下属性：

* 随机讉K��能力�Q�处理模型应该允许开发�h员方便访问文档的某种层次�l�构�Q�比如，使用XPath�Q�或手动�?br />* 高性能�Q�性能上与DOM及SAX相比�Q�应有显著提高，而且�q�个“性能”应该是真实的，��是��_��应该把徏立文档层�ơ结构的旉��也算上�?br />* 低内存占用率�Q�要使该模型能够被广泛应用于各种场景�Q�不��文件的大小�Q�那它就必须能够以最低的内存消耗来表现XML的结构�?br />
VTD-XML��是一个实��C��q�些目标的下一代的开源XML处理模型。它相比于DOM和SAX有着本质和全面的改进。VTD-XML的一个关键优化是非提取符�?non-extractive tokenization)。在其内部，VTD-XML在内存中保存完整及未解码的XML消息�Q��ƈ使用一个二�q�制�~�码规范来唯一地表�C�每个符受��这�U�规范被�U�CؓVirtual Token Descriptor�Q�虚拟符��h��q�符�Q�。每个VTD记录都是一�?4字节的整敎ͼ�它对XML中符��L��长度�Q��v始偏�U�量�Q�类型，嵌套深度�q�行了编码�?br />
再简单地介绍一下VTD-XML的历�Ԍ��也许你会感兴��：最初这个概忉|��被用来在特定��g讑֤�上��用，以�ɘq�些��g�Q�如路由器，交换机）可以高速处理XML�Q�比如FPGA,ASIC。此后，VTD-XML��目�l�决定��它开源，�q�于2004�q�五月发布了VTD-XML的最初版本，0.5版，用JAVA实现。从那时赗��VTD-XML�l�历了多�ơ改�q��ƈ��来��成熟。在0.8版本中，C语言版本的VTD-XML与JAVA版同时发布。在1.0版中引入了对XPath的内建支持，�?005�q?0月发布。最新的版本�?.5版，它的解析引擎被重新编写以实现更强的模块化和更高的性能�?br />
同样�Q�在�q�个版本中还出现了一个新的特性，叫作�~�冲重用。它的基本概忉|��Q�当XML应用需要通过�|�络�q�接来反复地��d��XML文档�Ӟ��该应用会重用在第一�ơ处理中分配的内存缓册Ӏ�换句话��_��即一�ơ分配，多次使用。就VTD-XML来讲�Q�这个特性完全消除了在处理XML�q�程中徏立对象和垃圾回收的开销�Q�在DOM和SAX中占�?0%�?0%的开销�Q�。在该项目的�|�站上，提供有最新的软�g下蝲和深层技术说明�?br />

一个简短例�?/span>

��Z��使你更好��C��解VTD-XML�~�程的风��|��本文首先对用VTD-XML和DOM解析和访问一个简单的XML文�g�q�行�Ҏ��。该文�g名�ؓtest.xml�Q�内容如下：

VTD-XML版本的程序如下：

import com.ximpleware.*;
import com.ximpleware.parser.*;
import java.io.*;

public class use_vtd {
    public static void main(String[] args){
        try{
            File f = new File("test.xml");
            FileInputStream fis = new FileInputStream(f);
            byte[] ba = new byte[(int)f.length()];
            fis.read(ba);
            VTDGen vg = new VTDGen();
            vg.setDoc(ba);
            vg.parse(false);
            VTDNav vn = vg.getNav();
            if (vn.matchElement("purchaseOrder")){
                System.out.println(" orderDate==>" 
                    + vn.toString(vn.getAttrVal("orderDate")));
                if (vn.toElement(VTDNav.FIRST_CHILD,"item")){
                    if (vn.toElement(VTDNav.FIRST_CHILD)){
                        do {
                            System.out.print( vn.toString(vn.getCurrentIndex()));
                                System.out.print("==>");

                            System.out.println( vn.toString(vn.getText()));
                        } while(vn.toElement(VTDNav.NEXT_SIBLING));
                    }
                }
            }
        }
        catch (Exception e){
            System.out.println("exception occurred ==>"+e);
        } 
    }
}

实现同样功能的DOM版本的程序：

import java.io.*;
import org.w3c.dom.*;
import org.w3c.*;
import javax.xml.parsers.*;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.FactoryConfigurationError;
import javax.xml.parsers.ParserConfigurationException;
import org.w3c.dom.*;
import org.xml.sax.SAXException;

public class use_dom {
    public static void main(String[] args){
        try{
            DocumentBuilderFactory factory =
            DocumentBuilderFactory.newInstance();
            DocumentBuilder parser = factory.newDocumentBuilder();
            Document d= parser.parse("test.xml");
            Element root = d.getDocumentElement();
            if (root.getNodeName().compareTo("purchaseOrder")==0){
                System.out.println(" orderDate==> "
                    + root.getAttribute("orderDate"));

                Node n = root.getFirstChild();
                if (n != null){
                    do {
                        if (n.getNodeType() == Node.ELEMENT_NODE
                            && n.getNodeName().compareTo("item")==0){
                            Node n2 = n.getFirstChild();
                            if (n2!=null){
                                do {
                                    if (n2.getNodeType()
                                        == Node.ELEMENT_NODE){    
                                        System.out.println( 
                                            n2.getNodeName() 
                                            + "==>" +
                                            n2.getFirstChild().getNodeValue()
                                        );
                                    }
                                }while((n2=n2.getNextSibling())!=null);
                            } 
                        }
                    }while ((n=n.getNextSibling()) != null ); 
                } 
            } 
        }
        catch (Exception e){
            System.out.println("exception occurred ==>"+e);
        }    
    }
}

像以上所展示的那��P��VTD-XML使用��Z��游标的API来访问XML层次�l�构。相比之下，DOM API通过��h��对象的引用来达成同样目标。VTD-XML的项目网站提供更多详�l�的技术资料和�C�Z��E�序�?br />
VTD-XML的基准测�?/span>

下面�Q�我们来比较一下VTD-XML一些流行的XML解析器的性能和内存占用情��c��值得注意的是�Q�多数包含基准测试数据的文章�Q�如Dennis Sosnoski�?002�q?月发表在JavaWorld上的“XML Documents on the Run”，都是多年前的文章。自那以后，如摩��定律所�C�，更好更快的硬件大量涌现�ƈ��来��便宜。同�Ӟ��XML解析与JVM技术也�q�未止步不前――在一些关键领域做��Z��改进�?br />
��试讄��
��试�q�_��是Sony VAIO�W�记本电脑，使用Pentium M 1.7 GHz处理器（2MB L2 cache�Q�，512MB DDR2内存。前端�ȝ��频率�?00MHz。操作系�l��ؓWindows XP Professional Edition with Services pack 2。JVM版本�?.5.0_06�?br />对以下XML解析器的最新版本进行了基准��试�Q?br />*Xerces DOM 2.7.1, 带有及不带有延迟节点扩展(deferred node expansion)
*Xerces SAX 2.7.1
*Piccolo SAX 1.04
*XPP3 1.1.3.4.O
*VTD-XML 1.5, 带有及不带有�~�冲重用

在测试中我��用了大量不同大小和不同复杂程度的XML文档。从文档大小上，我把它们分�ؓ三类�Q�小文�g�Q�小�?0KB�Q�；中文�Ӟ��10KB�?MB�Q�；大文�Ӟ��大于1MB�Q��?br />在全部的性能度量中我都��用了服务器的JVM来获取最高性能。在�q�些��试中，基准��试�E�序首先会多�ơ解析或讉K��文档�Q��JVM对字节码�q�行��x��动态优化，之后才取得性能的��^均��g��为最�l�结果。�ؓ了减��由于磁盘IO��D��的时间差别，基准��试�E�序在测试运行之前已�l�把XML文�g��d��到内存中�?br />
注意�Q�有兴趣的读者可以从资源下蝲基准��试�E�序�?br />
吞吐量对比解�?/strong>
本节在�g�q�时间和吞吐量上对XML解析性能�q�行描述。要注意的是VTD-XML与DOM可直接进行比较，而与SAX或Pull直接�Ҏ��很不公�q�I��因�ؓ它们不在内存中构��Z�Q何层�ơ结构。因此SAX和Pull的性能在此只作为额外参考�?br />吞吐�?br />

�?1. ��文�?

�?2. 中文�?

�?3. 大文�?

延迟旉��Ҏ��
�?1. ��文�?br />

�?2. 中文�?br />

�?3. 大文�?br />

内存占用率对�?br />因�ؓSAX和Pull不在内存中构��Z�Q何数据结构，所以这��Ҏ��试只有与DOM的对比才有意义。因此，本节对倍加�p�L��(multiplying factor)�q�行衡量�Q�该�p�L��为内存占用率与大文�g的文件大��之比（内存占用对大文�g特别重要�Q��?br />

�?4.

讉K��性能�Ҏ��
本节从�g�q�时间上展示VTD-XML与DOM 的访问性能。�g�q�时间是指访问文档中每个节点所��q��旉��。�ؓ了遍历所有节点，DOM依赖于nodeInterator接口�Q�而VTD-XML则调用AutoPilot�cȝ��成员�Ҏ��selectElement(�?与iterate(�?。如所预期的一��P��讉K��速度比解析速度要快得多。对VTD-XML�Q�访问时间开销在解析时间开销�?5%�?0%之间。对DOM�Q�该数字�?%�?%。这�q�不说明VTD-XML的访问速度慢于DOM。这完全是因为VTD-XML有着非常快的解析速度�?br />
�?4. ��文�?br />

�?5. 中文�?br />

�?6. 大文�?br />

�l�果分析
在Dennis Sosnoski四年前发表于JavaWorld的文章中�Q�Piccolo是众多SAX实现中的赢家。现在这得到了改变：最新的Xerces击��|众多�Ҏ��成�ؓ性能最好的SAX解析器。测试结果也昄��Q�与Xerces相比�Q�XPP3也有相当不错的性能�Q�不比前者相差很多�?br />另外�Q�有��的是，当文件较��时�Q�DOM与SAX的解析性能差距�q�不像在解析大文件时的相差那么大。在��文件的情况下，DOM的�g�q�节�Ҏ��展导致比使用完全节点扩展要差的解析性能�?br />
而VTD-XML的出众性能使它完全胜过其他��M��解析器，�q��它自成一�U�。真正的比较只是存在于��用缓冲重用的VTD-XML及不使用�~�冲重用的VTD-XML之间。内存占用率上的重大优势使得VTD-XML可以被用于处理大XML文档�Q��ƈ且对��L��大小的文仉��有较好的性能�?br />
�l�论

VTD-XML是一�U�全新的�Q�下一代的XML解析器。它解决了许多目前困扰DOM和SAX的问题。VTD-XML高性能与低内存占用的结合意味着�Q�首先，DRAM已经相当便宜�Q�如果不是完全没有空间存放XML文档�Q�那��没有多��理�׃��用SAX�Q�其�ơ，使用VTD-XML使得应用变得更加��单，更快。它对各�U�大��的文�g的适应性，使得选择一个合适的XML处理模型变得��单，而开发�h员也不必再在完全不同的DOM和SAX中进行切换了�Q�最后，VTD-XML可以为长久以来对XML的不满提供一个��o��Z��服的�{�案。比如，VTD-XML内徏了本地XML索引的能力，也许可以�怹�改变认�ؓXML速度慢的看法。正�׃��它的性能优势�Q�VTD-XML应该标志着�?0倍速XML”时代的到来。更重要的是�Q�VTD-XML的下一站，只在咫尺之遥�Q�那��是�?00倍速XML”�?/p>

资源
*VTD-XML:http://vtd-xml.sf.net/
*Apache Axis FAQ:http://ws.apache.org/axis/faq.html#faq1
*下蝲基准��试�E�序:http://sourceforge.net/project/showfiles.php?group_id=110612

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=933706

放水老�?/a> 2006-08-29 13:20 发表评论

删除同名节点手记

Thu, 25 May 2006 10:22:00 GMT

�E�序代码�?�c�L��法：用到jdom�?br />public void removeElement(String path,String catalog){
 SAXBuilder sb = new SAXBuilder();
 try
 {
 Document doc = sb.build(path);
 Element root = doc.getRootElement();
 Element subroot=root.getChild("entity");

 Element content=subroot.getChild("contents");

 List entities=content.getChildren("entity");
 for(int j=0;j {
 Element _element=(Element)entities.get(j);
 if(_element.getChild("nick").getText().equals(catalog))
 {
 System.out.println(_element.getChild("nick").getText());
 System.out.println(_element.getChild("description").getText());
 content.removeContent(_element);
 //_element.removeContent(_element);
 }
 }

 Format format = Format.getCompactFormat();

 format.setEncoding("UTF-8"); //讄��xml文�g的字�W��ؓUTF-8
 format.setIndent(" "); //讄��xml文�g的羃�q��ؓ4个空�?/em>

 XMLOutputter xmlOutput = new XMLOutputter(format);
 xmlOutput.output(root, new FileOutputStream(path));
 }
 catch(Exception e)
 {
 e.printStackTrace();
 }
 }
XML文�g片：

 文档目录��理
 images/globe.gif
 images/globe_selected.gif


 1
 档案��理�E�序
 images/book.gif
 images/bookOpen.gif


 1
 国家Linux技术培训与推广中心档案查询登记�?lt;/description>
 images/paper.gif
 images/paper.gif
 国家Linux技术培训与推广中心档案查询登记�?lt;/title> <dir>doc/1/1.doc</dir> </entity> <entity> <nick>2</nick> <description>国家Linux技术培训与推广中心档案��理�E�序</description> <imageBase>images/paper.gif</imageBase> <imageOpen>images/paper.gif</imageOpen> <title>国家Linux技术培训与推广中心档案��理�E�序

doc/1/2.doc


 3
 lnic人员��理办法
 images/paper.gif
 images/paper.gif
 lnic人员��理办法
 doc/1/3.txt




 2
 对外业务
 images/book.gif
 images/bookOpen.gif


 1
 国家Linux技术培训与推广中心供应商调查报�?lt;/description>
 images/paper.gif
 images/paper.gif
 国家Linux技术培训与推广中心供应商调查报�?lt;/title> <dir>doc/2/1.doc</dir> </entity> <entity> <nick>2</nick> <description>国家Linux技术培训与推广中心国有资��甌��?lt;/description> <imageBase>images/paper.gif</imageBase> <imageOpen>images/paper.gif</imageOpen> <title>国家Linux技术培训与推广中心国有资��甌��?lt;/title> <dir>doc/2/2.doc</dir> </entity> <entity> <nick>3</nick> <description>国家Linux技术培训与推广中心合格供应商名�?lt;/description> <imageBase>images/paper.gif</imageBase> <imageOpen>images/paper.gif</imageOpen> <title>国家Linux技术培训与推广中心合格供应商名�?lt;/title> <dir>doc/2/3.doc</dir> </entity> <entity> <nick>4</nick> <description>国家Linux技术培训与推广中心�q�货质量验收计划</description> <imageBase>images/paper.gif</imageBase> <imageOpen>images/paper.gif</imageOpen> <title>国家Linux技术培训与推广中心�q�货质量验收计划
 doc/2/4.doc


 5
 国家Linux技术培训与推广中心培训协议�?lt;/description>
 images/paper.gif
 images/paper.gif
 国家Linux技术培训与推广中心培训协议�?lt;/title> <dir>doc/2/5.doc</dir> </entity> <entity> <nick>6</nick> <description>国家Linux技术培训与推广中心外购物品验收报告</description> <imageBase>images/paper.gif</imageBase> <imageOpen>images/paper.gif</imageOpen> <title>国家Linux技术培训与推广中心外购物品验收报告
 doc/2/6.doc


 7
 lnic人员器材��理办法
 images/paper.gif
 images/paper.gif
 lnic人员器材��理办法
 doc/2/7.doc



 错误出现在： 1�?font color="#ff1493">content.removeContent(_element);
 2�?font color="#ffa500"> //_element.removeContent(_element);

用第2�U�方法总达不到效果�Q�搞了半天才更正了错误�?/font>

放水老�?/a> 2006-05-25 18:22 发表评论

[转]xml+xsl应用,包含中文字符的URL�~�码问题

Thu, 27 Apr 2006 15:18:00 GMT

在xml应用中，�l�常��一些URL信息作�ؓxml数据存储�Q�其中URL参数有可能包含有中文字符�?br />当��用dom对xml数据�q�行解析�Ӟ��可以对中文字�W�进行编码�?br />但如果只使用xslt来显�C�xml数据�?data.xml+data.xsl)�Q�发现此时的URL会出现编码错�?
即��指定�~�码�c�d��(encoding=gb2312),依然会出现同��L��问题.
��试发现�Q�是IE的缓存机刉��题，IE仍会把新的页�?所链接的URL)的MIME内容�c�d��默认为text/xml

解决�Ҏ��Q?br />1.指定输出文档�c�d��为xml文档 (example:data.xsl)

2.在新的窗口打开�Q�给联接增加属�?指明目标�H�口为其他窗口�?(example:data2.xsl)
_blank

examples:

/*** data.xml ***/

 http://www.google.com/search?q=
 xml数据

 http://www1.baidu.com/baidu?word=
 xml数据

 http://www.google.com/search?q=
 极限�~�程(xp)

 http://www1.baidu.com/baidu?word=
 极限�~�程(xp)

/*** data.xsl ***/

http://www.w3.org/1999/XSL/Transform>






/*** data2.xsl ***/

http://www.w3.org/1999/XSL/Transform>





 _blank


放水老�?/a> 2006-04-27 23:18 发表评论

Sun, 16 Apr 2006 16:14:00 GMT
 XSL ��属性视为属于XML 文�g中的一个元素，好像是XML 文�g中的子元素。然而，要在XSL��h��中读取属性，你必��d��属性名�U�前加上字符@�Q�作为属性名�U�C��元素名称的识别�?br /> 例如�Q�在下列起始标签中的�{�选运��子从所有BOOK 元素�Q�筛选出属性InStock 的属性��gؓ「yes」的BOOK 元素。换句话��_��{�选运��子�{�选出有库存的书籍�Q?br />
 你可以��用XSL 元素value-of�Q�如同��用它来撷取元素的文字内容的方式一般，来撷取�Q何属性的属性倹{��例如下列所�C�，value-of 元素得到AUTHOR 元素中Born 属性的属性��|��


 在列�?0-8 中的样式表，�C��了存取XML 文�g中元素属性值的技巧。这份样式表被连�l�到列表10-9 中的XML文�g�Q��ƈ昄��书籍清单中所有库存有的书�c�。（你可以在随书光盘�?XslDemo06.xsl �?XslDemo06.xml 档案中找到。）
 XslDemo06.xsl





Books In Stock



















Title Author Binding Type Number of Pages Price

 select="TITLE"/>

 select="AUTHOR"/>

 (born select="AUTHOR/@Born"/>)

 select="BINDING"/>

 select="PAGES"/>

 select="PRICE"/>





 XslDemo06.xml





 The Adventures of Huckleberry Finn
 Mark Twain
 mass market paperback
 298
 $5.49


 Leaves of Grass
 Walt Whitman
 hardcover
 462
 $7.75


 The Marble Faun
 Nathaniel Hawthorne
 trade paperback
 473
 $10.95


 Moby-Dick
 Herman Melville
 hardcover
 724
 $9.95


 在XML 文�g中的每个BOOK 元素�Q�皆包含InStock 属性，藉由讑֮�属性��gؓ「yes」或「no�?来指定此书籍是否有库存。每个AUTHOR 元素使用Born 属性来指出作者的出生�q�䆾。 �?
 样式表��用筛选运��子中的属性，来从样式表所昄��的BOOK 元素集合中排除所有缺货的书籍�Q�而不是显�C�属性InStock 的属性��|��

 此样式表��BOOK 元素昄��于HTML 的表��g��Q�而不是在先前范例的SPAN 元素中。它利用XSL 元素value-of ��Born 属性的属性值显�C�Z��AUTHOR 元素的��g��后。下列的元素会徏立显�C��些属性值的表格�Q?br />

(born )

放水老�?/a> 2006-04-17 00:14 发表评论

午夜精品www,亚洲你懂的在线视频,超碰在线免费公开

[转] 使用VTD-XML���化XML处理-克服DOM及SAX�~�点的新选择

删除同名节点手记

[转]xml+xsl应用,包含中文字符的URL�~�码问题

Books In Stock

[转] 使用VTD-XML��化XML处理-克服DOM及SAX�~�点的新选择