使用 XML: 處理指令和參數::添加多個樣式表支持
級別: 初級
Benoit Marchal, 顧問, Pineapplesoft
2001 年 9 月 01 日
這個月,我們不辭辛勞的專欄作家將多個樣式表的支持添加到 XM 內容管理項目中。 在這樣做時,他涉及到了 TrAXURIResolver
并編寫偽屬性的解析器。如往常一樣,可在 developerWorks 開放源碼專區獲得完整的源代碼。在“使用 XML”專欄文章中,Beno?t Marchal 每個月都報告其關于一個或多個開放源碼 XML 開發項目的進展。 您可以隨著他的進展,遵循他的設計決策和編碼選擇,也可以提出一些建議以及在您自己的項目中重用該開放源代碼。
繼續有 關 XM 的工作。這個月,我已經添加了多個樣式表支持,因此可以解決讀者發來的最常見建議。 我還添加了一個將一些參數傳遞到樣式表的選項,它使 XM 基本的發布功能更完美。 在開始繼續開發更高級的功能期間,我已經包括了一個目錄閱讀器。(您可以下載有關這篇文章以及以前專欄文章的所有相關代碼; 請參閱副欄 獲取代碼。)
XM 的頭兩個版本沿用“用一種模式來套用所有”策略,最初看上去似乎是一個好主意,但經過證實它是無效的。 更明確地講,到現在為止,XM 只識別一種樣式表
rules.xsl
。正如本系列的第一篇文章中說明的那樣, 我原先認為我本可以使用不同的 XSLT 模板來選擇樣式的變更:
|
然 而,我自己在 ananas.org(我完全用 XM 維護的網站)上的經歷說明了我最初的計劃不能很好地工作。 我還收到一些讀者的建議,建議我解決那些他們察覺是缺陷的問題。最后, 當我開始著手內容生成(稍后將在本文中介紹)時,更覺得有必要添加多個樣式表的支持了。
![]() |
|
您可能記起,易用性是我優先使用 XM 的原因之一, 明確地講,我不希望使用配置文件或“構建腳本”來選擇哪個樣式表適用于哪個地方(有關這一需求的完整討論, 請閱讀 使用 XML:將 XSLT 用于內容管理)。
讀者建議用巧妙的命名約定來選擇樣式表,但對于解決方案的最好提議來自一位同事, 他提醒我使用
xml-stylesheet
處理指令。
如果您不熟悉
xml-stylesheet
,則可以看于 1999 年 7 月發表的小的 W3C 建議書,其中介紹了它,xml-stylesheet 是通過 Internet Explorer 5.0 而得到普及。處理指令將樣式表(XSL 或 CSS)與 XML 文檔相關聯。 例如:
|
一般而言,處理指令對應用程序特定的數據進行編碼。您已經熟悉了處理指令,因為大多數 XML 文檔都是以 XML 聲明開始, 該聲明本身就是特殊的處理指令。一條處理指令包含一個目標(在上面示例中,
xml-stylesheet
),后跟數據。 用
<?
和
?>
定界符將處理指令包起來。目標確定應用程序, 而對應用程序不能識別的目標,其會忽略這些處理指令。
數據格式完全是自由的。XML 不指定將什么東西放進去(當然,除了 XML 聲明)。 事實上,由于歷史原因,處理指令可以包含 PostScript 圖像或腳本等……但決不包含標記。
象聲明一樣,
xml-stylesheet
有特殊地位,因為它是由 W3C 定義的。 它必須出現在文檔的開始(即,在第一個元素之前),并且包含幾個所謂的
偽屬性。這個數據之所以稱為偽屬性, 是因為其語法與 XML 屬性相似。
最重要的偽屬性是
href
,它包含指向樣式表的 URI。其它有用的偽屬性有
type
和
alternate
。
type
是樣式表的 MIME 類型, 它用來區別 CSS 和 XSL。如果有多個
xml-stylesheet
指令, 則
alternate
表明哪一個替代主樣式表。處理器應該用備用樣式表列表提示用戶。 然而,因為 XM 以批處理方式工作,所以它使用不同的策略,完全忽略備用樣式表。
雖然
xml-stylesheet
是一種 W3C 標準,但 TrAX 處理器忽略它,除非另行告知。 應用程序必須明確地調用
getAssociatedStylesheet()
來檢索處理指令,如下:
|
然而,
getAssociatedStylesheet()
帶來 XM 必須避免的兩個問題。首先,
getAssociatedStylesheet()
使高速緩存常用樣式表變得困難。其次,它假設樣式表存儲在與文檔相同的目錄中。 我喜歡將樣式表存儲在不同的目錄中,因為我發現,如果樣式表都被分組在一個目錄中,可以易于維護和共享樣式表。
選擇樣式表僅僅完成了解決方案的一半。 通常,我希望做一些小小的變動,而不必編寫新的樣式表。對于這種情況,我喜愛的解決方案是使用參數, 如清單 1 所示:
清單 1:樣本參數
|
還有,如何傳遞這些參數?W3C 沒有提議一種機制,所以定義新的處理指令似乎也就不足為奇了。XM 可以識別
xm-xsl-param
和
xml-stylesheet
。
xm-xsl-param
的語法與其它處理指令相似,并且使用兩個偽屬性
name
和
value
:
|
顯而易見,TrAX 不支持
xm-xsl-param
,但因為我已經確定 XM 需要替換
getAssociatedStylesheet()
,所以解析
xm-xsl-param
的工作不是很多。
但這不是意味著要對文檔解析兩次嗎?一次用于處理指令,另一次是使用 XSLT 處理器。實際上, 解析兩次不會引起更多麻煩,因為處理指令必須出現在文檔開始,所以 XM 只是重新解析文檔的一小部分。
ProcessingInstructionHandler 和 PseudoAttributeTokenizer
ProcessingInstructionHandler
是一種 SAX
ContentHandler
,它抽取
xml-stylesheet
和
xm-xsl-param
。
處理程序截取 4 個事件。
setDocumentLocator()
和
startDocument()
用于初始化。 大多數工作都發生在
processingInstruction()
中。至于
startElement()
, 它用來停止解析,因為它標記這個開始的結束。要停止解析,
startElement()
拋出一個異常。 這種作法近乎黑客所使用的手段,這是有爭議的;異常一般用于報告錯誤,然而
startElement()
中沒有錯誤,但 SAX 沒有提供更“光明正大”的解決方案來停止解析。
雖然偽屬性的語法與 XML 屬性相類似,但 SAX 解析器不對它們進行譯碼。XM 使用它自己的解析器
PseudoAttributeTokenizer
來對偽屬性進行譯碼。
PseudoAttributeTokenizer
每次掃描緩沖區一個字符,查找偽屬性。 它使用一種典型的算法,這種算法可以在每本編譯器書籍中找到。 如果您不熟悉方面的內容,那么我推薦您閱讀以 Pascal 聞名的 Niklaus Wirth 的
Compiler Construction(請參閱
參考資料)。
要簡化該代碼,
getc()
方法返回緩沖區中的下一個字符,而
putc()
替換緩沖區中
getc()
下一次調用的字符。
PseudoAttributeTokenizer
的公用接口由三個方法組成:
hasMoreTokens()
測試緩沖區中是否還有偽屬性,
nextName()
返回下一個名稱,
nextValue()
返回下一個值。
讓我們研究一下
nextName()
。它通過調用
eatSpaces()
來除去前導空格。接下來, 只要它發現有數字或字母,就一直循環下去,并將字符累積在變量(
token
)中。因為名稱只包含數字和字母, 所以任何其它字符都可以表示這個循環的結束。
nextName()
特別關注讀入緩沖區的、返回的最后一個字符, 其中,它將用于
nextValue()
。
清單 2:nextName() 示例
|
nextValue()
與
nextName()
相似,但它先識別等號字符(由
nextName()
將它留在緩沖區中)和引號字符。
nextValue()
還譯碼預先定義的實體(
<
、
>
以及類似的)。
有了 tokenizer,就很容易譯碼處理指令。以下代碼摘自
ProcessingInstructionHandler
,它用來識別
xml-stylesheet
。
xm-xsl-param
的代碼與這類似:
清單 3:ProcessingInstructionHandler 摘錄
|
請記住,XM 會忽略備用樣式表。W3C 建議書考慮到 HTTP,所以提供了優先于備用樣式表的缺省樣式表。XM 使用與這相同的規則, 應用它自己的缺省樣式表,而不考慮備用樣式表。
由于 XM 可使用多個樣式表, 所以對高速緩存的邏輯進行了改進。這是由
TemplatesManager
來負責。當
StylingMover
請求
Templates
對象時,從高速緩存(如果該對象在其中)檢索該對象。如果該對象不在其中, 則
TemplatesManager
裝入樣式表并將其放入高速緩存。本質上,
TemplatesManager
是包含
java.util.Map
的封裝器,并包含用于返回
Transformer
對象的附加方法。
正如前面所解釋的那樣,XM 不會將文檔和樣式表混在一起。它使用兩個目錄:文檔目錄和規則目錄。TrAX 提供
URIResolver
接口以控制 XSLT 處理器如何裝入文件。XSLT 處理器的
URIResolver
與 SAX 解析器的
EntityResolver
相似; 當該處理器裝入已導入的樣式表(通過
xsl:import
或
xsl:include
元素)或文檔(通過
document()
函數)時, 該處理器調用它的
resolve()
方法。
TemplatesManager
使用內部類
ReferenceResolver
,該類從規則目錄裝入樣式表:
清單 4:ReferenceResolver 示例
|
當然,我已經把
StylingMover
改寫成新類。它現在用
ProcessingInstructionHandler
處理程序來解析文檔。 它使用處理結果來選擇樣式表并指定參數,如
清單 5 所示。 特別要注意 try/catch 語句;因為
startElement()
使用特殊異常來停止解析,所以代碼必須識別那不是一個錯誤。
![]() ![]() |
![]()
|
到目前為止, 有關 XM 的工作已經涉及了基本發布特性。雖然它們很重要,但我相信 XM 的真正價值體現在從一開始我就縈繞在腦際的自動內容生成。 簡而言之,這個想法是讓 XM 為您生成 XML 文檔。
例如,許多網站都包含下載區。如果經常更改文件列表, 則要維護一個帶總是最新列表的 XML 文檔是困難的。最好使用一種軟件來自動生成列表。 該文檔可能類似于清單 6。同樣可以從 SQL 數據庫、郵箱或者甚至遠程網站生成文檔!
清單 6:由 XM 讀取的目錄
|
上個月的專欄文章中介紹了
Mover
,其用于簡化添加自動內容生成的過程。 這個月,我已經在代碼中預先包含了目錄生成,并打算下個月再講述它。同時, 如果您對此感興趣,可回顧一下
DirectoryReader
、
WalkHandler
和
WalkMover
。
![]() ![]() |
![]()
|
目前,我正在用 XM 維護兩個網站:ananas.org 和一個內部網。從使用 XM 而得到的實際經驗對于確定如何更改軟件十分有用。 歡迎您的加入,希望您下載 XM 副本,嘗試它,來構建您自己的網站。 請在 ananas-discussion 郵件列表報告您的發現(請參閱 參考資料)。
我已經將 ananas.org 網站的代碼(.xml 文檔和 .xsl 樣式表)添加到 CVS 資源庫中, 您可以從那出發來設計您自己的網站。
如果安裝了早期版本的 XM,則需要更新軟件以利用這個月的改進:將
rules.xsl
文件重命名為
default.xsl
,并將它移到
rules
目錄。 這與用于選擇樣式表的新標準匹配。
![]() ![]() |
![]()
|
- 您可以參閱本文在 developerWorks 全球站點上的
英文原文.
- 參與本文的
論壇。
- 可以從
ananas.org下載該項目的代碼。在那里有到 developerWorks 上的
CVS 資源庫以及 ananas-discussion 郵件列表的鏈接。 我希望您加入列表,并就該項目,提出您的想法。
- 如果想要
ZIP 文件,也可以獲得它。
- XM 將
Xalan和
Xerces-J分別用作 XSLT 處理器和 XML 解析器。最初,IBM(和Lotus)開發了這兩個工具,后來將代碼贈予 Apache Foundation。
-
XML Extender for DB2與 DirectoryReader 類似,但它用于 DB2 數據庫。它允許您將數據庫作為 XML 文檔訪問……可以用 XSLT 來轉換 XML 文檔。
- Niklaus Wirth 的
Compiler Construction(ISBN 0-2014-0353-6)是對解析的最好介紹之一。共 180 頁,可以很快讀完。
- 在 developerWorks
XML 專區中查找更多的 XML 參考資料。
![]() ![]() |
![]()
|
![]() |
||
|
![]() |
Beno?t Marchal 是比利時納慕爾的顧問和作家。他是 XML by Example、 Applied XML Solutions和 XML and the Enterprise的作者。他是 Gamelan 的專欄作家。有關他最新項目的詳細信息,可在 marchal.com上找到。可以通過 bmarchal@pineapplesoft.com與 Beno?t 聯系。 |
posted on 2006-03-21 23:45 Vincent.Chen 閱讀(497) 評論(0) 編輯 收藏 所屬分類: XML