java操作xml摘录(dom)

kelven — Thu, 27 Jul 2006 09:06:00 GMT

DOM是Document Object Model的羃写，��x��档对象模型。就是将�Q�XML��数据组�l��ؓ一颗树�Q�所以DOM��是对这颗树的一个对象描叙。通俗的说�Q�就是通过解析XML文档�Q��ؓXML文档在逻辑上徏立一个树模型�Q�树的节�Ҏ��一个个对象。我们通过存取�q�些对象��p��够存取XML文档的内宏V�?

下面我们来看一个简单的例子�Q�看看在DOM中，我们是如何来操作一个XML文档的�?

�q�是一个XML文档�Q�也是我们要操作的对象：

Good-bye serialization, hello Java!
BR>
下面�Q�我们需要把�q�个文档的内容解析到一个个的Java对象中去供程序��用，利用JAXP�Q�我们只需几行代码��p��做到�q�一炏V��首先，我们需要徏立一个解析器工厂�Q�以利用�q�个工厂来获得一个具体的解析器对象：

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();

我们在这里��用DocumentBuilderFacotry的目的是��Z��创徏与具体解析器无关的程序，当DocumentBuilderFactory�cȝ��静态方法newInstance()被调用时�Q�它�Ҏ��一个系�l�变量来军_��具体使用哪一个解析器。又因�ؓ所有的解析器都服从于JAXP所定义的接口，所以无论具体��用哪一个解析器�Q�代码都是一��L��。所以当在不同的解析器之间进行切换时�Q�只需要更改系�l�变量的��|��而不用更改�Q何代码。这��是工厂所带来的好处。这个工厂模式的具体实现�Q�可以参看下面的�c�d��?

DocumentBuilder db = dbf.newDocumentBuilder();

当获得一个工厂对象后�Q��用它的静态方法newDocumentBuilder()�Ҏ��可以获得一个DocumentBuilder对象�Q�这个对象代表了具体的DOM解析器。但具体是哪一�U�解析器�Q�微软的或者IBM的，对于�E�序而言�q�不重要�?

然后�Q�我们就可以利用�q�个解析器来对XML文档�q�行解析了：

Document doc = db.parse("c:/xml/message.xml");

DocumentBuilder的parse()�Ҏ��接受一个XML文档名作��入参敎ͼ��q�回一个Document对象�Q�这个Document对象��׃��表了一个XML文档的树模型。以后所有的对XML文档的操作，都与解析器无养I��直接在这个Document对象上进行操作就可以了。而具体对Document操作的方法，��是由DOM所定义的了�?

Jaxp支持W3C所推荐的DOM 2。如果你对DOM很熟悉，那么下面的内容就很简单了�Q�只需要按照DOM的规范来�q�行�Ҏ��调用��可以。当�Ӟ��如果你对DOM不清楚，也不用着急，后面我们会有详细的介�l�。在�q�儿�Q�你所要知道�ƈ牢记的是�Q�DOM是用来描叙XML文档中的数据的模型，引入DOM的全部原因就是�ؓ了用�q�个模型来操作XML文档的中的数据。DOM规范中定义有节点�Q�即对象�Q�、属性和�Ҏ��Q�我们通过�q�些节点的存取来存取XML的数据�?

从上面得到的Document对象开始，我们��可以开始我们的DOM之旅了。��用Document对象的getElementsByTagName()�Ҏ��Q�我们可以得��C��个NodeList对象�Q�一个Node对象代表了一个XML文档中的一个标�{�օ�素，而NodeList对象�Q�观其名而知其意�Q�所代表的是一个Node对象的列表：

NodeList nl = doc.getElementsByTagName("message");

我们通过�q�样一条语句所得到的是XML文档中所�?message />标签对应的Node对象的一个列表。然后，我们可以使用NodeList对象的item()�Ҏ��来得到列表中的每一个Node对象�Q?

Node my_node = nl.item(0);

当一个Node对象被徏立之后，保存在XML文档中的数据��p��提取出来�q�封装在�q�个Node中了。在�q�个例子中，要提取Message标签内的内容�Q�我们通常会��用Node对象的getNodeValue()�Ҏ��Q?

String message = my_node.getFirstChild().getNodeValue();

��h��意，�q�里�q��用了一个getFirstChild()�Ҏ��来获得message下面的第一个子Node对象。虽然在message标签下面除了文本外�ƈ没有其它子标�{�或者属性，但是我们坚持在这里��用getFirseChild()�Ҏ��Q�这主要和W3C对DOM的定义有兟뀂W3C把标�{�ֆ�的文本部分也定义成一个Node�Q�所以先要得��C��表文本的那个Node�Q�我们才能够使用getNodeValue()来获取文本的内容�?

现在�Q�既然我们已�l�能够从XML文�g中提取出数据了，我们��可以把�q�些数据用在合适的地方�Q�来构筑应用�E�序�?

下面的内容，我们��更多的��x��DOM�Q��ؓDOM作一个较��l�的解析�Q��我们使用��h��更�ؓ得心应手�?

1�Q�基本的DOM对象

DOM的基本对象有5个：Document�Q�Node�Q�NodeList�Q�Element和Attr。下面就�q�些对象的功能和实现的方法作一个大致的介绍�?

Document对象代表了整个XML的文档，所有其它的Node�Q�都以一定的��序包含在Document对象之内�Q�排列成一个树形的�l�构�Q�程序员可以通过遍历�q�颗树来得到XML文档的所有的内容�Q�这也是对XML文档操作的�v炏V��我们��L��先通过解析XML源文件而得��C��个Document对象�Q�然后再来执行后�l�的操作。此外，Document�q�包含了创徏其它节点的方法，比如createAttribut()用来创徏一个Attr对象。它所包含的主要的�Ҏ��有：

createAttribute(String)�Q�用�l�定的属性名创徏一个Attr对象�Q��ƈ可在其后使用setAttributeNode�Ҏ��来放�|�在某一个Element对象上面�?

createElement(String)�Q�用�l�定的标�{�֐�创徏一个Element对象�Q�代表XML文档中的一个标�{�，然后��可以在�q�个Element对象上添加属性或�q�行其它的操作�?

createTextNode(String)�Q�用�l�定的字�W�串创徏一个Text对象�Q�Text对象代表了标�{�或者属性中所包含的纯文本字符丌Ӏ�如果在一个标�{�ֆ�没有其它的标�{�，那么标签内的文本所代表的Text对象是这个Element对象的唯一子对象�?

getElementsByTagName(String)�Q�返回一个NodeList对象�Q�它包含了所有给定标�{�֐�字的标签�?

getDocumentElement()�Q�返回一个代表这个DOM树的根节点的Element对象�Q�也��是代表XML文档根元素的那个对象�?

Node对象是DOM�l�构中最为基本的对象�Q�代表了文档树中的一个抽象的节点。在实际使用的时候，很少会真正的用到Node�q�个对象�Q�而是用到诸如Element、Attr、Text�{�Node对象的子对象来操作文档。Node对象��些对象提供了一个抽象的、公��q��栏V��虽然在Node对象中定义了对其子节点进行存取的�Ҏ��Q�但是有一些Node子对象，比如Text对象�Q�它�q�不存在子节点，�q�一�Ҏ��要注意的。Node对象所包含的主要的�Ҏ��有：

appendChild(org.w3c.dom.Node)�Q��ؓ�q�个节点��d��一个子节点�Q��ƈ攑֜�所有子节点的最后，如果�q�个子节点已�l�存在，则先把它删掉再添加进厅R�?

getFirstChild()�Q�如果节点存在子节点�Q�则�q�回�W�一个子节点�Q�对�{�的�Q�还有getLastChild()�Ҏ��q�回最后一个子节点�?

getNextSibling()�Q�返回在DOM树中�q�个节点的下一个兄弟节点，对等的，�q�有getPreviousSibling()�Ҏ��q�回其前一个兄弟节炏V�?

getNodeName()�Q�根据节点的�c�d��q�回节点的名�U��?

getNodeType()�Q�返回节点的�c�d��?

getNodeValue()�Q�返回节点的倹{�?

hasChildNodes()�Q�判断是不是存在有子节点�?

hasAttributes()�Q�判断这个节�Ҏ��否存在有属性�?

getOwnerDocument()�Q�返回节�Ҏ��处的Document对象�?

insertBefore(org.w3c.dom.Node new�Q�org.w3c.dom.Node ref)�Q�在�l�定的一个子对象前再插入一个子对象�?

removeChild(org.w3c.dom.Node)�Q�删除给定的子节点对象�?

replaceChild(org.w3c.dom.Node new�Q�org.w3c.dom.Node old)�Q�用一个新的Node对象代替�l�定的子节点对象�?

NodeList对象�Q�顾名思义�Q�就是代表了一个包含了一个或者多个Node的列表。可以简单的把它看成一个Node的数�l�，我们可以通过�Ҏ��来获得列表中的元素：

GetLength()�Q�返回列表的长度�?

Item(int)�Q�返回指定位�|�的Node对象�?

Element对象代表的是XML文档中的标签元素�Q��承于Node�Q�亦是Node的最主要的子对象。在标签中可以包含有属性，因而Element对象中有存取其属性的�Ҏ��Q�而�Q何Node中定义的�Ҏ��Q�也可以用在Element对象上面�?

getElementsByTagName(String)�Q�返回一个NodeList对象�Q�它包含了在�q�个标签中其下的子孙节点中具有给定标�{�֐�字的标签�?

getTagName()�Q�返回一个代表这个标�{�֐�字的字符丌Ӏ?

getAttribute(String)�Q�返回标�{�中�l�定属性名�U�的属性的倹{��在�q�儿需要主要的是，应�ؓXML文档中允许有实体属性出玎ͼ�而这个方法对�q�些实体属性�ƈ不适用。这时候需要用到getAttributeNodes()�Ҏ��来得��C��个Attr对象来进行进一步的操作�?

getAttributeNode(String)�Q�返回一个代表给定属性名�U�的Attr对象�?

Attr对象代表了某个标�{�中的属性。Attr�l�承于Node�Q�但是因为Attr实际上是包含在Element中的�Q�它�q�不能被看作是Element的子对象�Q�因而在DOM中Attr�q�不是DOM树的一部分�Q�所以Node中的getparentNode()�Q�getpreviousSibling()和getnextSibling()�q�回的都��是null。也��是��_��Attr其实是被看作包含它的Element对象的一部分�Q�它�q�不作�ؓDOM树中单独的一个节点出现。这一点在使用的时候要同其它的Node子对象相区别�?

需要说明的是，上面所说的DOM对象在DOM中都是用接口定义的，在定义的时候��用的是与具体语言无关的IDL语言来定义的。因而，DOM其实可以在�Q何面向对象的语言中实玎ͼ�只要它实��C��DOM所定义的接口和功能��可以了。同�Ӟ��有些�Ҏ��在DOM中�ƈ没有定义�Q�是用IDL的属性来表达的，当被映射到具体的语言�Ӟ��q�些属性被映射为相应的�Ҏ��?

· 2�Q�DOM实例

有了上面的介�l�，�怿�你对DOM理解的更多了吧。下面的例子��让你对DOM更加熟悉��h��?

先说说这个例子到底要做的是什么吧�Q�我们希望在一个名为link.xml文�g中保存了一些URL地址�Q�通过一个简单的�E�序�Q�我们可以通过DOM把这些URL��d��q�显�C�出来，也可以反�q�来向这个XML文�g中写入加入的URL地址。很��单，却很实用�Q�也��_��来例�C�DOM的绝大部分用法了�?

XML文�g本��n不复杂，��׃��l�出它的DTD了。link.xml:


 
 
 
JSP Insider 
 ;http://www.jspinsider.com< ;/url> 
JSP Insider 
 
2 
1 
2001 
 
A JSP information site. 
 
 
The makers of Java 
 ;http://java.sun.com< ;/url> 
Sun Microsystems 
 
3 
1 
2001 
 
Sun Microsystem´s website. 
 
 
The standard JSP container 
 ;http://jakarta.apache.org< ;/url> 
Apache Group 
 
4 
1 
2001 
 
Some great software. 
 

BR>

�W�一个程序我们称为xmldisplay.java�Q�具体的�E�序清单可以在附件中扑ֈ�。主要的功能��是��d��q�个XML文�g中各个节点的内容�Q�然后在格式化输出在System.out上，我们来看看这个程序：
import javax.xml.parsers.*;
import org.w3c.dom.*;

�q�是引入必要的类�Q�因为在�q�里使用的是Sun所提供的XML解析器，因而需要引入java.xml.parsers包，其中包含了有DOM解析器和SAX解析器的具体实现。org.w3c.dom包中定义了w3c所制定的DOM接口�?

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder=factory.newDocumentBuilder();
Document doc=builder.parse("links.xml");
doc.normalize();

除了上面讲到的，�q�有一个小技巧，对Document对象调用normalize()�Q�可以去掉XML文档中作为格式化内容的空白而映��在DOM树中的不必要的Text Node对象。否则你得到的DOM树可能�ƈ不如你所惌��的那栗��特别是在输出的时候，�q�个normalize()更�ؓ有用�?

NodeList links =doc.getElementsByTagName("link");

刚才说过�Q�XML文档中的�I�白�W�也会被作�ؓ对象映射在DOM树中。因而，直接调用Node�Ҏ��的getChildNodes�Ҏ��有时候会有些问题�Q�有时不能够�q�回所期望的NodeList对象。解决的办法是��用Element的getElementByTagName(String)�Q�返回的NodeLise��是所期待的对象了。然后，可以用item()�Ҏ��提取惌��的元素�?

for (int i=0;i
Element link=(Element) links.item(i);
System.out.print("Content: ");
System.out.println(link.getElementsByTagName("text").item(0).getFirstChild().getNodeValue());
System.out.print("URL: ");
System.out.println(link.getElementsByTagName("url").item(0).getFirstChild().getNodeValue());

System.out.print("Author: ");
System.out.println(link.getElementsByTagName("author").item(0).getFirstChild().getNodeValue());
System.out.print("Date: ");
Element linkdate=(Element) link.getElementsByTagName("date").item(0);
String day=linkdate.getElementsByTagName("day").item(0).getFirstChild().getNodeValue();
String month=linkdate.getElementsByTagName("month").item(0).getFirstChild().getNodeValue();
String year=linkdate.getElementsByTagName("year").item(0).getFirstChild().getNodeValue();
System.out.println(day+"-"+month+"-"+year);
System.out.print("Description: ");
System.out.println(link.getElementsByTagName("description").item(0).getFirstChild().getNodeValue());
System.out.println();
}

上面的代码片断就完成了对XML文档内容的格式化输出。只要注意到一些细节的问题�Q�比如getFirstChile()�Ҏ��和getElementsByTagName()�Ҏ��的��用，�q�些�q�是比较�Ҏ��的�?

下面的内容，��是在修改了DOM树后重新写入到XML文档中去的问题了。这个程序名为xmlwrite.java。在JAXP1.0版本中，�q�没有直接的�c�d��Ҏ��能够处理XML文档的写入问题，需要借助其它包中的一些辅助类。而在JAXP1.1版本中，引入了对XSLT的支持，所谓XSLT�Q�就是对XML文档�q�行变换�Q�Translation�Q�后�Q�得��C��个新的文档结构。利用这个新加入的功能，我们��p��够很方便的把新生成或者修改后的DOM树从新写回到XML文�g中去了，下面我们来看看代码的实现�Q�这�D�代码的主要功能是向links.xml文�g中加入一个新的link节点�Q?

import javax.xml.parsers.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.w3c.dom.*;

新引入的java.xml.transform包中的几个类�Q�就是用来处理XSLT变换的�?

我们希望在上面的XML文�g中加入一个新的link节点�Q�因而首先还是要��d��links.xml文�g�Q�构��Z��个DOM树，然后再对�q�个DOM树进行修改（��d��节点�Q�，最后把修改后的DOM写回到links.xml文�g中：

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder=factory.newDocumentBuilder();
Document doc=builder.parse("links.xml");
doc.normalize();
//---取得变量----
String text="Hanzhong´s Homepage";
String url="www.hzliu.com";
String author="Hzliu Liu";
String discription="A site from Hanzhong Liu, give u lots of suprise!!!";

��Z��看清重点�Q�简化程序，我们把要加入的内容硬�~�码到记忆String对象中，而实际操作中�Q�往往利用一个界面来提取用户输入�Q�或者通过JDBC从数据库中提取想要的内容�?

Text textseg;
Element link=doc.createElement("link");

首先应该明了的是�Q�无��Z��么类型的Node�Q�Text型的也好�Q�Attr型的也好�Q�Element型的也好�Q�它们的创徏都是通过Document对象中的createXXX()�Ҏ��来创建的�Q�XXX代表具体要创建的�c�d��Q�，因此�Q�我们要向XML文档中添加一个link��目�Q�首先要创徏一个link对象�Q?

Element linktext=doc.createElement("text");
textseg=doc.createTextNode(text);
linktext.appendChild(textseg);
link.appendChild(linktext);
Element linkurl=doc.createElement("url");
textseg=doc.createTextNode(url);
linkurl.appendChild(textseg);
link.appendChild(linkurl);
Element linkauthor=doc.createElement("author");
textseg=doc.createTextNode(author);
linkauthor.appendChild(textseg);
link.appendChild(linkauthor);
java.util.Calendar rightNow = java.util.Calendar.getInstance();
String day=Integer.toString(rightNow.get(java.util.Calendar.DAY_OF_MONTH));
String month=Integer.toString(rightNow.get(java.util.Calendar.MONTH));

String year=Integer.toString(rightNow.get(java.util.Calendar.YEAR));
Element linkdate=doc.createElement("date");
Element linkdateday=doc.createElement("day");
textseg=doc.createTextNode(day);
linkdateday.appendChild(textseg);
Element linkdatemonth=doc.createElement("month");
textseg=doc.createTextNode(month);
linkdatemonth.appendChild(textseg);
Element linkdateyear=doc.createElement("year");
textseg=doc.createTextNode(year);
linkdateyear.appendChild(textseg);
linkdate.appendChild(linkdateday);
linkdate.appendChild(linkdatemonth);
linkdate.appendChild(linkdateyear);
link.appendChild(linkdate);
Element linkdiscription=doc.createElement("description");
textseg=doc.createTextNode(discription);
linkdiscription.appendChild(textseg);
link.appendChild(linkdiscription);

创徏节点的过�E�可能有些千��一律，但需要注意的地方是，对Element中所包含的text�Q�在DOM中，�q�些text也是代表了一个Node的，因此也必��Mؓ它们创徏相应的node�Q�，不能直接用Element对象的setNodeValue()�Ҏ��来设�|�这些text的内容，而需要用创徏的Text对象的setNodeValue()�Ҏ��来设�|�文本，�q�样才能够把创徏的Element和其文本内容��d��到DOM树中。看看前面的代码�Q�你会更好的理解�q�一点：

doc.getDocumentElement().appendChild(link);

最后，不要忘记把创建好的节�Ҏ��加到DOM树中。Document�cȝ��getDocumentElement()�Ҏ��Q�返回代表文档根节点的Element对象。在XML文档中，根节点一定是唯一的�?

TransformerFactory tFactory =TransformerFactory.newInstance();
Transformer transformer = tFactory.newTransformer();
DOMSource source = new DOMSource(doc);
StreamResult result = new StreamResult(new java.io.File("links.xml"));
transformer.transform(source, result);

然后��是用XSLT把DOM树输��Z��。这里的TransformerFactory也同样应用了工厂模式�Q��得具体的代码同具体的变换器无兟뀂实现的�Ҏ��和DocumentBuilderFactory相同�Q�这儿就不赘�q�C��。Transformer�cȝ��transfrom�Ҏ��接受两个参数、一个数据源Source和一个输出目标Result。这里分别��用的是DOMSource和StreamResult�Q�这样就能够把DOM的内容输出到一个输出流中，当这个输出流是一个文件的时候，DOM的内容就被写入到文�g中去了�?br />

kelven 2006-07-27 17:06 发表评论

亚洲天堂成人,黄色影院在线播放,日本一区高清

java操作xml摘录(dom)