xml 解析�Ҏ��[引用]

黎夕 — Tue, 05 Jan 2010 02:44:00 GMT

XML 文�g格式如下�Q?

Xml代码

　　�Q?xml version="1.0" encoding="GB2312"?�Q?nbsp;
　　�Q�RESULT�Q?nbsp;
　　�Q�VALUE�Q?nbsp;
　　�Q�NO�Q�A1234�Q?NO�Q?nbsp;
　　�Q�ADDR�Q�四川省XX县XX镇XX路X�D�XX��P��/ADDR�Q?nbsp;
　　�Q?VALUE�Q?nbsp;
　　�Q�VALUE�Q?nbsp;
　　�Q�NO�Q�B1234�Q?NO�Q?nbsp;
　　�Q�ADDR�Q�四川省XX市XX乡XX村XX�l�＜/ADDR�Q?nbsp;
　　�Q?VALUE�Q?nbsp;
　　�Q?RESULT�Q?nbsp;

　　�Q?xml version="1.0" encoding="GB2312"?�Q?
　　�Q�RESULT�Q?
　　�Q�VALUE�Q?
　　�Q�NO�Q�A1234�Q?NO�Q?
　　�Q�ADDR�Q�四川省XX县XX镇XX路X�D�XX��P��/ADDR�Q?
　　�Q?VALUE�Q?
　　�Q�VALUE�Q?
　　�Q�NO�Q�B1234�Q?NO�Q?
　　�Q�ADDR�Q�四川省XX市XX乡XX村XX�l�＜/ADDR�Q?
　　�Q?VALUE�Q?
　　�Q?RESULT�Q?

　首先出场的是 DOM�Q�JAXP Crimson 解析器）

　　DOM 是用与��^台和语言无关的方式表�C?XML 文档的官�?W3C 标准。DOM 是以层次�l�构�l�织的节�Ҏ��信息片断的集合。这个层�ơ结构允许开发�h员在树中��L��特定信息。分析该�l�构通常需要加载整个文档和构造层�ơ结构，然后才能做�Q何工作。由于它是基于信息层�ơ的�Q�因�?DOM 被认为是��Z��树或��Z��对象的。DOM 以及�q�义的基于树的处理具有几个优炏V��首先，�׃��树在内存中是持久的，因此可以修改它以便应用程序能�Ҏ��据和�l�构作出更改。它�q�可以在��M��时候在树中上下��D��Q�而不是像 SAX 那样是一�ơ性的处理。DOM 使用��h��也要��单得多�?

　　另一斚w��Q�对于特别大的文档，解析和加载整个文档可能很慢且很耗资源，因此使用其他手段来处理这��L��数据会更好。这些基于事件的模型�Q�比�?SAX�?

Java代码

　package com.test;
　　import java.io.*;
　　import java.util.*;
　　import org.w3c.dom.*;
　　import javax.xml.parsers.*;
　　public class MyXMLReader{
　　public static void main(String arge[]){
　　long lasting =System.currentTimeMillis();
　　try{
　　　File f=new File("data_10k.xml");
　　　DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
　　　DocumentBuilder builder=factory.newDocumentBuilder();
　　　Document doc = builder.parse(f);
　　　NodeList nl = doc.getElementsByTagName("VALUE");
　　　for (int i=0;i�Q�nl.getLength();i++){
　　　　System.out.print("车牌��L��:" + doc.getElementsByTagName("NO").item(i).getFirstChild().getNodeValue());
　　　　System.out.println(" 车主地址:" + doc.getElementsByTagName("ADDR").item(i).getFirstChild().getNodeValue());
　　}
　　}catch(Exception e){
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉��Q?+(System.currentTimeMillis() - lasting)+" 毫秒");
　　}
　　}

　package com.test;
　　import java.io.*;
　　import java.util.*;
　　import org.w3c.dom.*;
　　import javax.xml.parsers.*;
　　public class MyXMLReader{
　　public static void main(String arge[]){
　　long lasting =System.currentTimeMillis();
　　try{
　　　File f=new File("data_10k.xml");
　　　DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
　　　DocumentBuilder builder=factory.newDocumentBuilder();
　　　Document doc = builder.parse(f);
　　　NodeList nl = doc.getElementsByTagName("VALUE");
　　　for (int i=0;i�Q�nl.getLength();i++){
　　　　System.out.print("车牌��L��:" + doc.getElementsByTagName("NO").item(i).getFirstChild().getNodeValue());
　　　　System.out.println(" 车主地址:" + doc.getElementsByTagName("ADDR").item(i).getFirstChild().getNodeValue());
　　}
　　}catch(Exception e){
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉����Q?+(System.currentTimeMillis() - lasting)+" 毫秒");
　　}
　　}

10k消耗时��_��265 203 219 172
　　100k消耗时��_��9172 9016 8891 9000
　　1000k消耗时��_��691719 675407 708375 739656
　　10000k消耗时��_��OutOfMemoryError

接着�?SAX

　　�q�种处理的优炚w��常类��g��媒体的优点。分析能够立卛_��始，而不是等待所有的数据被处理。而且�Q�由于应用程序只是在��d��数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优炏V��事实上�Q�应用程序甚至不必解析整个文档；它可以在某个条�g得到满��时停止解析。一般来��_��SAX �q�比它的替代�?DOM 快许多�?

　　选择 DOM �q�是选择 SAX �Q?

　　对于需要自��q��写代码来处理 XML 文档的开发�h员来��_��选择 DOM �q�是 SAX 解析模型是一个非帔R��要的设计决策�?

　　DOM 采用建立树�Ş�l�构的方式访�?XML 文档�Q��?SAX 采用的事件模型�?

　　DOM 解析器把 XML 文档转化��Z��个包含其内容的树�Q��ƈ可以�Ҏ��q�行遍历。用 DOM 解析模型的优�Ҏ��~�程�Ҏ��Q�开发�h员只需要调用徏树的指��o�Q�然后利用navigation APIs讉K��所需的树节点来完成�Q务。可以很�Ҏ��的添加和修改树中的元素。然而由于��?DOM 解析器的时候需要处理整�?XML 文档�Q�所以对性能和内存的要求比较高，��其是遇到很大的 XML 文�g的时候。由于它的遍历能力，DOM 解析器常用于 XML 文档需要频�J�的改变的服务中�?

　　SAX 解析器采用了��Z��事�g的模型，它在解析 XML 文档的时候可以触发一�p�d��的事�Ӟ��当发现给定的tag的时候，它可以激�z�M��个回调方法，告诉该方法制定的标签已经扑ֈ�。SAX 对内存的要求通常会比较低�Q�因为它让开发�h员自己来军_��所要处理的tag。特别是当开发�h员只需要处理文档中所包含的部分数据时�Q�SAX �q�种扩展能力得到了更好的体现。但�?SAX 解析器的时候编码工作会比较困难�Q�而且很难同时讉K��同一个文档中的多处不同数据�?

　　Bean文�g�Q?

Java代码

　　package com.test;
　　import org.xml.sax.*;
　　import org.xml.sax.helpers.*;
　　import javax.xml.parsers.*;
　　public class MyXMLReader extends DefaultHandler {
　　java.util.Stack tags = new java.util.Stack();
　　public MyXMLReader() {
　　super();
　　}
　　public static void main(String args[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　SAXParserFactory sf = SAXParserFactory.newInstance();
　　　SAXParser sp = sf.newSAXParser();
　　　MyXMLReader reader = new MyXMLReader();
　　　sp.parse(new InputSource("data_10k.xml"), reader);
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉��Q? + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　public void characters(char ch[], int start, int length) throws SAXException {
　　String tag = (String) tags.peek();
　　if (tag.equals("NO")) {
　　　System.out.print("车牌��L��Q? + new String(ch, start, length));
　　}
　　if (tag.equals("ADDR")) {
　　System.out.println(" 地址:" + new String(ch, start, length));
　　}
　　}
　　public void startElement(
　　String uri,
　　String localName,
　　String qName,
　　Attributes attrs) {
　　tags.push(qName);
　　}
　　}

　　package com.test;
　　import org.xml.sax.*;
　　import org.xml.sax.helpers.*;
　　import javax.xml.parsers.*;
　　public class MyXMLReader extends DefaultHandler {
　　java.util.Stack tags = new java.util.Stack();
　　public MyXMLReader() {
　　super();
　　}
　　public static void main(String args[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　SAXParserFactory sf = SAXParserFactory.newInstance();
　　　SAXParser sp = sf.newSAXParser();
　　　MyXMLReader reader = new MyXMLReader();
　　　sp.parse(new InputSource("data_10k.xml"), reader);
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉����Q? + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　public void characters(char ch[], int start, int length) throws SAXException {
　　String tag = (String) tags.peek();
　　if (tag.equals("NO")) {
　　　System.out.print("车牌��L���Q? + new String(ch, start, length));
　　}
　　if (tag.equals("ADDR")) {
　　System.out.println(" 地址:" + new String(ch, start, length));
　　}
　　}
　　public void startElement(
　　String uri,
　　String localName,
　　String qName,
　　Attributes attrs) {
　　tags.push(qName);
　　}
　　}

10k消耗时��_��110 47 109 78
　　100k消耗时��_��344 406 375 422
　　1000k消耗时��_��3234 3281 3688 3312
　　10000k消耗时��_��32578 34313 31797 31890 30328

　然后�?JDOM http://www.jdom.org/

　　JDOM 的目的是成�ؓ Java 特定文档模型�Q�它��化与 XML 的交互�ƈ且比使用 DOM 实现更快。由于是�W�一�?Java 特定模型�Q�JDOM 一直得到大力推�q�和促进。正在考虑通过“Java 规范��h�� JSR-102”��它最�l�用�?#8220;Java 标准扩展”。从 2000 �q�初��已�l�开始了 JDOM 开发�?

　　JDOM �?DOM 主要有两斚w��不同。首先，JDOM 仅��用具体类而不使用接口。这在某些方面简化了 API�Q�但是也限制了灵�z�L��。第二，API 大量使用�?Collections �c�，��化了那些已经熟悉�q�些�cȝ�� Java 开发者的使用�?

　　JDOM 文档声明其目的是“使用 20%�Q�或更少�Q�的�_�֊�解决 80%�Q�或更多�Q�Java/XML 问题”�Q�根据学习曲�U�假定�ؓ 20%�Q�。JDOM 对于大多�?Java/XML 应用�E�序来说当然是有用的�Q��ƈ且大多数开发者发�?API �?DOM �Ҏ��理解得多。JDOM �q�包括对�E�序行�ؓ的相当广泛检查以防止用户做�Q何在 XML 中无意义的事。然而，它仍需要您充分理解 XML 以便做一些超出基本的工作�Q�或者甚至理解某些情况下的错误）。这也许是比学习 DOM �?JDOM 接口都更有意义的工作�?

　　JDOM 自��n不包含解析器。它通常使用 SAX2 解析器来解析和验证输�?XML 文档�Q�尽��它�q�可以将以前构造的 DOM 表示作�ؓ输入�Q�。它包含一些�{换器以将 JDOM 表示输出�?SAX2 事�g��、DOM 模型�?XML 文本文档。JDOM 是在 Apache 许可证变体下发布的开放源码�?

　　Bean文�g�Q?

Java代码

　　package com.test;
　　import java.io.*;
　　import java.util.*;
　　import org.jdom.*;
　　import org.jdom.input.*;
　　public class MyXMLReader {
　　public static void main(String arge[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　SAXBuilder builder = new SAXBuilder();
　　　Document doc = builder.build(new File("data_10k.xml"));
　　　Element foo = doc.getRootElement();
　　　List allChildren = foo.getChildren();
　　　for(int i=0;i�Q�allChildren.size();i++) {
　　　　System.out.print("车牌��L��:" + ((Element)allChildren.get(i)).getChild("NO").getText());
　　　　System.out.println(" 车主地址:" + ((Element)allChildren.get(i)).getChild("ADDR").getText());
　　　}
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉��Q? + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　}

　　package com.test;
　　import java.io.*;
　　import java.util.*;
　　import org.jdom.*;
　　import org.jdom.input.*;
　　public class MyXMLReader {
　　public static void main(String arge[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　SAXBuilder builder = new SAXBuilder();
　　　Document doc = builder.build(new File("data_10k.xml"));
　　　Element foo = doc.getRootElement();
　　　List allChildren = foo.getChildren();
　　　for(int i=0;i�Q�allChildren.size();i++) {
　　　　System.out.print("车牌��L��:" + ((Element)allChildren.get(i)).getChild("NO").getText());
　　　　System.out.println(" 车主地址:" + ((Element)allChildren.get(i)).getChild("ADDR").getText());
　　　}
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉����Q? + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　}

10k消耗时��_��125 62 187 94
　　100k消耗时��_��704 625 640 766
　　1000k消耗时��_��27984 30750 27859 30656
　　10000k消耗时��_��OutOfMemoryError
最后是 DOM4J http://dom4j.sourceforge.net/

　　虽然 DOM4J 代表了完全独立的开发结果，但最初，它是 JDOM 的一�U�智能分支。它合�ƈ了许多超出基�?XML 文档表示的功能，包括集成�?XPath 支持、XML Schema 支持以及用于大文档或��化文档的基于事件的处理。它�q�提供了构徏文档表示的选项�Q�它通过 DOM4J API 和标�?DOM 接口��h��q�行讉K��功能。从 2000 下半�q�开始，它就一直处于开发之中�?

　　为支持所有这些功能，DOM4J 使用接口和抽象基本类�Ҏ��。DOM4J 大量使用�?API 中的 Collections �c�，但是在许多情况下�Q�它�q�提供一些替代方法以允许更好的性能或更直接的编码方法。直接好处是�Q�虽�?DOM4J 付出了更复杂�?API 的代��P��但是它提供了�?JDOM 大得多的灉|��性�?

　　在添加灵�z�L��、XPath 集成和对大文档处理的目标�Ӟ��DOM4J 的目标与 JDOM 是一��L��Q�针�?Java 开发者的易用性和直观操作。它�q�致力于成�ؓ�?JDOM 更完整的解决�Ҏ��Q�实现在本质上处理所�?Java/XML 问题的目标。在完成该目标时�Q�它�?JDOM 更少��防止不正��的应用�E�序行�ؓ�?

　　DOM4J 是一个非帔R��怼��U�的Java XML API�Q�具有性能优异、功能强大和极端易用使用的特点，同时它也是一个开放源代码的��Y件。如今你可以看到��来��多�?Java 软�g都在使用 DOM4J 来读�?XML�Q�特别值得一提的是连 Sun �?JAXM 也在�?DOM4J�?

　　Bean文�g�Q?

Java代码

　　package com.test;
　　import java.io.*;
　　import java.util.*;
　　import org.dom4j.*;
　　import org.dom4j.io.*;
　　public class MyXMLReader {
　　public static void main(String arge[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　File f = new File("data_10k.xml");
　　　SAXReader reader = new SAXReader();
　　　Document doc = reader.read(f);
　　　Element root = doc.getRootElement();
　　　Element foo;
　　　for (Iterator i = root.elementIterator("VALUE"); i.hasNext();) {
　　　　foo = (Element) i.next();
　　　　System.out.print("车牌��L��:" + foo.elementText("NO"));
　　　　System.out.println(" 车主地址:" + foo.elementText("ADDR"));
　　　}
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉��Q? + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　}

　　package com.test;
　　import java.io.*;
　　import java.util.*;
　　import org.dom4j.*;
　　import org.dom4j.io.*;
　　public class MyXMLReader {
　　public static void main(String arge[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　File f = new File("data_10k.xml");
　　　SAXReader reader = new SAXReader();
　　　Document doc = reader.read(f);
　　　Element root = doc.getRootElement();
　　　Element foo;
　　　for (Iterator i = root.elementIterator("VALUE"); i.hasNext();) {
　　　　foo = (Element) i.next();
　　　　System.out.print("车牌��L��:" + foo.elementText("NO"));
　　　　System.out.println(" 车主地址:" + foo.elementText("ADDR"));
　　　}
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("�q�行旉����Q? + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　}

10k消耗时��_��109 78 109 31
　　100k消耗时��_��297 359 172 312
　　1000k消耗时��_��2281 2359 2344 2469
　　10000k消耗时��_��20938 19922 20031 21078

JDOM �?DOM 在性能��试时表��C��佻I��在测�?10M 文档时内存溢出。在��文档情况下�q�值得考虑使用 DOM �?JDOM。虽�?JDOM 的开发者已�l�说明他们期望在正式发行版前专注性能问题�Q�但是从性能观点来看�Q�它��实没有值得推荐之处。另外，DOM 仍是一个非常好的选择。DOM 实现�q�泛应用于多�U�编�E�语�a�。它�q�是许多其它�?XML 相关的标准的基础�Q�因为它正式获得 W3C 推荐�Q�与��Z��非标准的 Java 模型相对�Q�，所以在某些�c�d��的项目中可能也需要它�Q�如�?JavaScript 中��?DOM�Q��?

　　SAX表现较好�Q�这要依赖于它特定的解析方式。一�?SAX ��即��到来的XML��，但�ƈ没有载入到内存（当然当XML��被��d��Ӟ��会有部分文档暂时隐藏在内存中�Q��?

　　无疑�Q�DOM4J是这场测试的莯��者，目前许多开源项目中大量采用 DOM4J�Q�例如大名鼎鼎的 Hibernate 也用 DOM4J 来读�?XML 配置文�g。如果不考虑可移植性，那就采用DOM4J吧！

黎夕 2010-01-05 10:44 发表评论

伊人久久婷婷,影音成人av,青青青免费视频在线2

xml 解析�Ҏ��[引用]