?

XML 技術(shù)是隨著 Java 的發(fā)展而發(fā)展起來的。在 XML 出現(xiàn)之前對于簡單的數(shù)據(jù)格式通常是存儲在 ini 配置文件等文本文件中，復雜的格式則采用自定義的文件格式，因此對于每種文件格式都要有專門的解析程序。 XML 出現(xiàn)以后解決了這個問題，程序面對的是有固定格式的 XML 文件，只要通過標準 API 就可以進行 XML 文件的處理。

XML 文件在案例系統(tǒng)中應用是很廣泛的，比如 ClientConfig.xml 、 ServerConfig.xml 文件就是使用 XML 文件來做配置文件的，元數(shù)據(jù)文件以及元數(shù)據(jù)加載器更是離不開 XML 。因此本章將系統(tǒng)講解一下 XML 文件的處理技術(shù)。

1.1 ?? XML處理技術(shù)比較

在 Java 領(lǐng)域 XML 文件的技術(shù)大致分為兩類： XML API 和 OXMapping 。 XML API 是 XML 處理的基礎(chǔ)，可選技術(shù)包括 JDOM 、 Dom4j 等； OXMapping 是 Object-XML Mapping 的簡稱，這種技術(shù)隱藏了 XML 底層操作的細節(jié)，可以將 XML 文件映射成一個 JavaBean 對象，也可以把一個 JavaBean 對象保存成一個 XML 文件，可選技術(shù) XStream 、 Digester 、 Castor 等。 XML API 和 OXMapping 的關(guān)系類似于 JDBC 和 ORMaping 的關(guān)系， OXMapping 內(nèi)部實現(xiàn)使用 XML API 來完成，兩種實現(xiàn)技術(shù)從不同的層面實現(xiàn)了 XML 的處理。

XML API

此類 XML 處理技術(shù)中最流行的莫過于 JDOM 和 Dom4j 了，二者的使用方式非常相似。不過 Dom4j 的優(yōu)勢比 JDOM 更明顯一些：

Dom4j 大量的使用接口，這使得 Dom4j 比 Dom4j 更加靈活和具有可擴展性；

Dom4j 的性能表現(xiàn)比 JDOM 好；

Dom4j 支持 XPath 等高級特性；

正是由于這些優(yōu)點，很多開源項目都開始使用 Dom4j 做 XML 解析技術(shù)，本書也將使用 Dom4j 做為 XML 處理的首選。

OXMapping

使用 XML API 解析是略顯煩瑣的，受 ORMapping 技術(shù)的啟發(fā)，人們發(fā)明了 OXMapping 技術(shù)，使用 OXMapping 技術(shù)，我們可以將 XML 文件映射成一個 JavaBean 對象，也可以把一個 JavaBean 對象保存成一個 XML 文件，這大大簡化了我們的開發(fā)工作量，使得開發(fā)人員能更多的關(guān)注應用層面的東西。

開源世界中涌現(xiàn)出很多 OXMapping 框架，包括 XStream 、 Digester 、 Castor 等。 XStream 和 Digester 把映射的過程在代碼中完成，而 Castor 則需要寫一個和 Hibernate 中 cfg.xml 類似的映射配置文件。與 Digester 比起來， XStream 的主要優(yōu)點就是更加小巧，使用也更加方便，不過目前使用 Digester 是“開源名牌” Apache 下的子項目，網(wǎng)上可以參考的資料也比 XStream 多，好在 XStream 比較簡潔，所以并不會對 XStream 造成太大影響。

http://www.aygfsteel.com/huanzhugege/

1.2 ?? Dom4j的使用

Dom4j 是一個易用的、開源的庫，用于 XML ， XPath 和 XSLT 。它應用于 Java 平臺，采用了 Java 集合框架并完全支持 DOM ， SAX 和 JAXP 。 Dom4j 是 sourceforge.net 上的一個開源項目，地址為 http://sourceforge.net/projects/dom4j 。

Dom4j 里基于接口編程是一個非常顯著的優(yōu)點，下面是其主要的接口的繼承體系結(jié)構(gòu)圖：

圖 5 . 1

這些接口大部分都是定義在包 org.dom4j 中，下面簡單介紹各個接口的意義：

表 5 . 1 Dom4j 主要接口

Node	Node 為是 dom4j 中所有的 XML 節(jié)點的基類型接口
Attribute	Attribute 定義了 XML 的屬性
Branch	Branch 為能夠包含子節(jié)點的節(jié)點如 XML 元素 (Element) 和文檔 (Docuemnts) 定義了一個公共的行為
Document	定義了 XML 文檔
Element	Element 定義 XML 元素
DocumentType	DocumentType 定義 XML DOCTYPE 聲明
Entity	Entity 定義 XML entity
CharacterData	CharacterData 是一個標識借口，標識基于字符的節(jié)點。如 CDATA ， Comment, Text
CDATA	CDATA 定義了 XML CDATA 區(qū)域
Comment	Comment 定義了 XML 注釋的行為
Text	Text 定義 XML 文本節(jié)點
ProcessingInstruction	ProcessingInstruction 定義 XML 處理指令

讀取 XML 文件

在 XML 應用中，最常用的莫過于 XML 文件的解析讀取了， Dom4j 提供了多種讀取 XML 文檔的方式，包括 Dom 樹遍歷、 Visitor 方式和 XPath 方式。

無論哪種方式，我們首先都要根據(jù) xml 文件構(gòu)造一個 Document 對象：

SAXReader reader = new SAXReader();

Document document = reader.read(new File(fileName));

這里我們選用了 SAXReader 做為 XML 讀取器，我們同樣也可以選擇 DOMReader 做為 XML 讀取器：

SAXReader reader = new DOMReader();

Document document = reader.read(new File(fileName));

其中 reader 的 read 方法有多個重載方法，可以從 InputStream, File, URL 等多種不同的源來讀取 XML 文檔。

（ 1 ） Dom 樹遍歷

這種讀取方式中把 Dom 看成一個普通的樹，要讀取 XML 中某個節(jié)點的值，只要采用數(shù)據(jù)結(jié)構(gòu)中的樹遍歷算法定位到需要讀取的節(jié)點即可。

要便利 Dom 樹，首先要取得樹的根節(jié)點：

Element root = document.getRootElement();

取得根節(jié)點以后就可以一級一級的向下讀了：

// 遍歷所有子節(jié)點

for ( Iterator i = root.elementIterator(); i.hasNext(); )

{

?????? Element element = (Element) i.next();

?????? // do something

??? }

??? // 遍歷名稱為“ foo ”的節(jié)點

for ( Iterator i = root.elementIterator( “ foo ” ); i.hasNext();)

{

?????? Element foo = (Element) i.next();

?????? // do something

??? }

??? // 遍歷屬性

for ( Iterator i = root.attributeIterator(); i.hasNext(); )

{

?????? Attribute attribute = (Attribute) i.next();

?????? // do something

}

（ 2 ） Visitor 方式

Dom 樹遍歷是最普通，也是最常用的 XML 讀取方式，其他的 XML 解析引擎，比如 JDom 等，也是使用這種方式進行 XML 的讀取。不過 Dom4j 提供了另外一種讀取方式，那就是 Visitor 方式。這種方式實現(xiàn)了 Visitor 模式，調(diào)用者只要編寫一個 Visitor 就可以了。 Visitor 模式使得訪問者易于增加新的操作，同時使訪問者集中相關(guān)的操作而分離無關(guān)的操作。

編寫的 Visitor 必須實現(xiàn) org.dom4j.Visitor 接口， Dom4j 還提供了一個 Default Adapter 模式的默認適配器 org.dom4j.VisitorSupport 。

public class DemoVisitor extends VisitorSupport

{

public void visit(Element element)

{

System.out.println(element.getName());

}

public void visit(Attribute attr)

{

System.out.println(attr.getName());

}

然后在要開始遍歷的節(jié)點調(diào)用此 Visitor 即可：

root.accept(new DemoVisitor ())

此方式需要遍歷所有的節(jié)點和元素，因此速度會稍慢一些。

（ 3 ） XPath 方式

Dom4j 最吸引人的特性莫過于對 XPath 的集成支持了，這個特性并不是所有的 XML 解析引擎都支持的，但是確實一個非常有用的特性。

XPath 是尋址、搜索和匹配文檔的各個部分的語言。它使用路徑標記法來指定和匹配文檔的各個部分，該標記法與文件系統(tǒng)和 URL 中使用的類似。例如， XPath:/x/y/z 搜索文檔的根節(jié)點 x ，其下存在節(jié)點 y ，其下存在節(jié)點 z 。該語句返回與指定路徑結(jié)構(gòu)匹配的所有節(jié)點。 /x/y/* 返回父節(jié)點為 x 的 y 節(jié)點下的任何節(jié)點。 /x/y[@name=a] 匹配所有父節(jié)點為 x 的 y 節(jié)點，其屬性稱為 name ，屬性值為 a 。

XPath 大大簡化了 XML 的尋址操作，使用者只要通過匹配表達式告訴引擎要匹配文檔的哪些部分即可，具體的匹配工作由 XPath 引擎來完成。這種方式更加接近于人類的自然思維方式。我們來看一個實際的例子：

有一個 XML 文件記錄了一個部門的基本情況：

<?xml version="1.0" encoding="GB2312"?>

???? <name> 開發(fā)部 </name>

???? <level>2</level>

???? <employeeList>

???????? <employee number="001" name="Tom" />

???????? <employee number="002" name="Jim" />

???????? <employee number="003" name="Lily" />

???? </employeeList>

</department>

name 代表部門名稱， level 為部門的級別， employeeList 下是部門所有的員工列表。下面編寫一個程序讀取此文件并打印出部門的信息。

代碼 5 . 1 XPath 演示

InputStream inStream = null;

try

{

???? inStream = Dom4jDemo01.class.getResourceAsStream(

"/com/cownew/Char0502/Department01.xml");

???? SAXReader reader = new SAXReader();

???? Document doc = reader.read(new InputStreamReader(inStream));

???? Node nameNode = doc.selectSingleNode("http://department/name");

???? System.out.println(" 部門名稱 :" + nameNode.getText());

???? Node levelNode = doc.selectSingleNode("http://department/level");

???? System.out.println(" 部門級別 :" + levelNode.getText());

???? List employeeNodeList = doc

?????????????????? .selectNodes("http://department/employeeList/employee");

???? System.out.println(" 部門下屬雇員 :");

???? for (int i = 0, n = employeeNodeList.size(); i < n; i++)

???? {

???????? DefaultElement employeeElement = (DefaultElement) employeeNodeList

??????????????????????????? .get(i);

???????? String name = employeeElement.attributeValue("name");

???????? String number = employeeElement.attributeValue("number");

???????? System.out.println(name + " ，工號 :" + number);

???? }

} finally

{

???? ResourceUtils.close(inStream);

}

運行結(jié)果：

部門名稱 : 開發(fā)部

部門級別 :2

部門下屬雇員 :

Tom ，工號 :001

Jim ，工號 :002

Lily ，工號 :003

使用 XPath 以后，我們只要使用“ //department/name ”這種非常清晰的方式就可以直接定位到具體的節(jié)點。 XPath 方式中定位單個節(jié)點使用 selectSingleNode 方法，而定位多節(jié)點則使用 selectNodes 方法。

案例系統(tǒng)中所有的 XML 文件都是使用 XPath 方式進行解析的，包括 ClientConfig.java 、 ServerConfig.java 、 EntityMetaDataParser.java 等。

XML 文件的創(chuàng)建

Dom4j 中 XML 文件的創(chuàng)建和其他的 XML 引擎類似，首先以 Document 的根節(jié)點為基礎(chǔ)構(gòu)造出一棵節(jié)點樹，然后調(diào)用相應的 IO 類庫就可以將 XML 文件保存到適當?shù)慕橘|(zhì)中了。

下面演示一下生成上文提到的那個部門信息 XML 文件的過程：

代碼 5 . 2 XML 創(chuàng)建演示

import java.io.FileWriter;

import java.io.IOException;

import org.dom4j.Document;

import org.dom4j.DocumentHelper;

import org.dom4j.Element;

import org.dom4j.io.OutputFormat;

import org.dom4j.io.XMLWriter;

public class Dom4jDemo02

{

???? public static void main(String[] args)

???? {

???????? // 創(chuàng)建文檔對象

???????? Document document = DocumentHelper.createDocument();

???????? // 添加根節(jié)點 "department"

???????? Element departElement = document.addElement("department");

???????? // 添加 "name" 節(jié)點

???????? Element departNameElement = DocumentHelper.createElement("name");

???????? departNameElement.setText(" 開發(fā)部 ");

???????? departElement.add(departNameElement);

???????? // 添加 "level" 節(jié)點

???????? Element departLevelElement = DocumentHelper.createElement("level");

???????? departLevelElement.setText("2");

???????? departElement.add(departLevelElement);

???????? // 添加員工列表 "employeeList" 節(jié)點

???????? Element employeeElementList = DocumentHelper

?????????????????? .createElement("employeeList");

???????? departElement.add(employeeElementList);

???????? // 添加員工節(jié)點 "employee"

???????? Element emp1Element = DocumentHelper.createElement("employee");

???????? emp1Element.addAttribute("number", "001");

???????? emp1Element.addAttribute("name", "Tom");

???????? employeeElementList.add(emp1Element);

???????? Element emp2Element = DocumentHelper.createElement("employee");

???????? emp2Element.addAttribute("number", "002");

???????? emp2Element.addAttribute("name", "Jim");

???????? employeeElementList.add(emp2Element);

???????? Element emp3Element = DocumentHelper.createElement("employee");

???????? // 添加屬性

???????? emp3Element.addAttribute("number", "003");

???????? emp3Element.addAttribute("name", "Lily");

???????? employeeElementList.add(emp3Element);

???????? try

???????? {

????????????? writeToFile(document, "c:/department.xml");

???????? } catch (IOException e)

???????? {

????????????? e.printStackTrace();

???????? }

???? }

???? private static void writeToFile(Document document, String file)

????????????? throws IOException

???? {

???????? // 美化格式

???????? OutputFormat format = OutputFormat.createPrettyPrint();

???????? format.setEncoding("GB2312");

???????? XMLWriter writer = null;

???????? try

???????? {

????????????? writer = new XMLWriter(new FileWriter(file), format);

????????????? writer.write(document);

???????? } finally

???????? {

????????????? if (writer != null)

?????????????????? writer.close();

???????? }

???? }

}

運行以后就可以在 c:/ 下發(fā)現(xiàn)生成了和 5.2.1 的文件內(nèi)容一樣的 department.xml 了。

這里有兩點需要注意的：

（ 1 ） OutputFormat format = OutputFormat.createPrettyPrint()

XML 通常是需要人閱讀的， Dom4j 默認的生成格式是緊縮格式的，這樣可以減少空間占用，但是帶來的缺點就是文件格式非常難看，因此我們采用鎖緊格式進行輸出。

（ 2 ） format.setEncoding("GB2312")

Dom4j 默認的編碼格式是“ UTF-8 ”，這在輸出中文字符的時候會有問題，因此我們改成“ GB2312 ”格式。

這里使用了 Dom4j 提供的工具類 DocumentHelper 提供的 createElement 方法來創(chuàng)建一個節(jié)點，這個工具類還有 public static CDATA createCDATA(String text) 、 public static Comment createComment(String text) 、 public static Entity createEntity(String name, String text) 等方法可以幫助我們更快的創(chuàng)建節(jié)點。 DocumentHelper 還提供了 parseText 方法，可以直接將字符串解析成 Documen 對象。

http://www.aygfsteel.com/huanzhugege/

1.3 ?? XStream的使用

在使用 XStream 之前首先到 http://xstream.codehaus.org 下載 XStream 的最新版本，然后把 XSteam***.jar 和 xpp3-***.jar 導入到 ClassPath 下，然后就可以使用了，當然不加入 xpp3-***.jar 也可以，我們可以使用 DomDriver 做為 XML 解析驅(qū)動（只要在實例化 XStream 的時候使用 new XStream(new DomDriver()) 即可），不過 Xpp3 為 XStream 提供的一個很有效率的 XML pull-parser 實現(xiàn)，推薦使用，可以提高解析的效率。

XML 的解析

我們有一個記錄書籍進行的 XML 文件：

<book>

???? <name>J2EE Guide Book</name>

???? <author>

???????? <name>Jerry</name>

???????? <email>Jerry@mail.com</email>

???? </author>

</book>

為了解析此 XML 文件，我們首先創(chuàng)建代表書籍和人員的兩個 JavaBean 。

代碼 5 . 3 人員和書籍的 JavaBean

public class BookInfo

{

???? private String name;

???? private PersonInfo author;

???? public PersonInfo getAuthor()

???? {

???????? return author;

???? }

???? public void setAuthor(PersonInfo author)

???? {

???????? this.author = author;

???? }

???? public String getName()

???? {

???????? return name;

???? }

???? public void setName(String name)

???? {

???????? this.name = name;

???? }

}

public class PersonInfo

{

???? private String name;

???? private String email;

???? public String getEmail()

???? {

???????? return email;

???? }

???? public void setEmail(String email)

???? {

???????? this.email = email;

???? }

???? public String getName()

???? {

???????? return name;

???? }

???? public void setName(String name)

???? {

???????? this.name = name;

???? }

}

然后我們就可以進行文件的解析了，這也是重頭戲：

代碼 5 . 4 XStream 的 XML 解析

XStream xstream = new XStream();

xstream.alias("book", BookInfo.class);

xstream.alias("author", PersonInfo.class);

InputStream inStream = XStreamDemo.class

???????? .getResourceAsStream("/com/cownew/Char0503/Books.xml");

InputStreamReader reader = new InputStreamReader(inStream);

BookInfo book = (BookInfo) xstream.fromXML(reader);

StringBuffer sb = new StringBuffer();

sb.append(book.getName()).append(" 的作者 ");

sb.append(book.getAuthor().getName()).append(" 的 Email 為 :");

sb.append(book.getAuthor().getEmail());

System.out.println(sb);

運行結(jié)果：

J2EE Guide Book 的作者 Jerry 的 Email 為 :Jerry@mail.com?????

由于 book 節(jié)點和 author 節(jié)點對應的數(shù)據(jù)類型是我們的自定義類型，因此我們必須首先向 XStream 注冊這兩個類型：

xstream.alias("book", BookInfo.class);

xstream.alias("author", PersonInfo.class);

由于我們是使用 XStream 解析已有的 XML 文件，因此我們必須讓 XStream 知道標簽對應的類型是什么，如果我們是使用 XStream 進行 XML 文件的生成，那么我們甚至無需向 XStream 注冊別名即可進行文件解析。

注冊完類型以后，調(diào)用 XStream 類的 fromXML 方法即可把 XML 解析成 JavaBean 對象，無需額外的操作。

XML 文件的保存

我們不僅需要解析 XML 文件，有的時候還需要將數(shù)據(jù)保存到 XML 文件， XStream 同樣能很好的完成，并且能更體現(xiàn)出 XStream 的強大。

代碼 5 . 5 XStream 中 XML 的保存

List bookList = new ArrayList();

PersonInfo p1 = new PersonInfo();

p1.setName("Tom");

p1.setEmail("Tom@mail.com");

PersonInfo p2 = new PersonInfo();

p2.setName("Jerry");

p2.setEmail("Jerry@mail.com");

????

BookInfo book1 = new BookInfo();

book1.setName("About Face");

book1.setAuthor(p1);

????

BookInfo book2 = new BookInfo();

book2.setName("UI Design");

book2.setAuthor(p2);

????

bookList.add(book1);

bookList.add(book2);

????

XStream xstream = new XStream();

String xml = xstream.toXML(bookList);

System.out.println(xml);

????

List list = (List) xstream.fromXML(xml);

for(int i=0,n=list.size();i<n;i++)

{

???? BookInfo book = (BookInfo) list.get(i);

???? StringBuffer sb = new StringBuffer();

???? sb.append(book.getName()).append(" 的作者 ");

???? sb.append(book.getAuthor().getName()).append(" 的 Email 為 :");

???? sb.append(book.getAuthor().getEmail());

???? System.out.println(sb);

}

運行結(jié)果：

<list>

? <com.cownew.Char0503.BookInfo>

??? <name>About Face</name>

??? <author>

????? <name>Tom</name>

????? <email>Tom@mail.com</email>

??? </author>

? </com.cownew.Char0503.BookInfo>

? <com.cownew.Char0503.BookInfo>

??? <name>UI Design</name>

??? <author>

????? <name>Jerry</name>

????? <email>Jerry@mail.com</email>

? ??</author>

? </com.cownew.Char0503.BookInfo>

</list>

About Face 的作者 Tom 的 Email 為 :Tom@mail.com

UI Design 的作者 Jerry 的 Email 為 :Jerry@mail.com

不可思議吧！我們就是像在序列化一樣把 JavaBean “序列化”為 XML 格式字符串，然后又輕松的將 XML 格式字符串“反序列化”為 JavaBean 。

不過美中不足的就是“ <com.cownew.Char0503.BookInfo> ”這個標簽顯得有點羅嗦。解決方式很簡單，使用 5.3.1 一節(jié)中提到的 alias 方法就可以辦到：

將 xstream.alias("book", BookInfo.class); 添加到 XStream xstream = new XStream(); 之后，然后重新運行：

<list>

? <book>

??? <name>About Face</name>

??? <author>

????? <name>Tom</name>

????? <email>Tom@mail.com</email>

??? </author>

? </book>

? <book>

??? <name>UI Design</name>

??? <author>

????? <name>Jerry</name>

????? <email>Jerry@mail.com</email>

??? </author>

? </book>

</list>

About Face 的作者 Tom 的 Email 為 :Tom@mail.com

UI Design 的作者 Jerry 的 Email 為 :Jerry@mail.com

posted on 2007-03-26 13:14 CowNew開源團隊閱讀(3403) 評論(5) 編輯收藏

關(guān)于dom4j和jdom：dom4j是從jdom分出來的，原因就是dom4j的開發(fā)者在接口的使用上與jdom的開發(fā)者存在不同意見。但是兩者本是同根生，性能應該差不了多少，api使用起來也是差不多的，至于xpath，dom4j、jdom都是依賴jaxen來完成的。

“XStream 和 Digester 把映射的過程在代碼中完成”，Digester的映射也可以在xml中定義。
回復更多評論

# re: XJL：XML文件處理[未登錄] 2007-03-27 18:03 Ken

文章寫的不錯，有問題請教

QQ：395436338
回復更多評論

# re: XJL：XML文件處理 2007-08-17 17:31 unicorn66

文章不錯回復更多評論

# re: XJL：XML文件處理 2007-11-25 17:37 hk2000c

從嚴格測試的情況來看，dom4j和jdom性能水平完全一樣。因為兩者解析器，兩者使用的完全一樣。
我專門寫了篇文章駁斥這種謬論，并作了大量測試。jdom和jom4j都是屬于同性能工業(yè)用XML解析器，并不存在所謂的性能差別巨大問題。
大家有興趣可以自己測一下。
說句題外話，請把數(shù)據(jù)說明，測試數(shù)據(jù)說明問題。
這樣才有說服力，還有一個XML文件超過5M，10M，除非特殊需要，否則這就是系統(tǒng)設計問題，一般就算是大規(guī)模系統(tǒng)間數(shù)據(jù)導入導出，也不應該這樣處理。

回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

CowNew開源團隊

公告

常用鏈接

留言簿(83)

隨筆分類

隨筆檔案

新聞檔案

相冊

友情鏈接

團隊成員

搜索

最新評論

閱讀排行榜

評論排行榜

?

1.1 ?? XML處理技術(shù)比較

http://www.aygfsteel.com/huanzhugege/

1.2 ?? Dom4j的使用

http://www.aygfsteel.com/huanzhugege/

1.3 ?? XStream的使用

評論