posts - 431,  comments - 344,  trackbacks - 0
          在進行 XML 文法分析之前,首先有必要了解 XML 語法的基本規則:
          詞法特征:
          1XML區分大小寫,如元素名在打開和關閉標記中應保持大小寫一致<mytag></mytag>,XML的保留詞串應符合大小寫要求<?xml > <!ENTITY>…。
          2XML保留標記字符為:< > &,保留字符不允許出現在元素名、元素文本、屬性名、屬性值中,< 用戶打開標記,>用于關閉標記,&用于轉意,常見的轉意為 &lt生成<&gt生成>,&amp生成&,&apos生成’,&quot生成”
          3)元素名以下劃線或字母開始,可包含字母、數字、句點、連字符、下劃線、冒號和用于其他語言的擴展字符,元素名中不能有空格符(分格符、跳格符、換行符、回車符),元素名可以由名域前綴。如:<mytag> <dt:mytag> 元素文本可以是除XML保留字符外的字符集合,如<mytag> my money is $2000 </mytag>
          4)屬性名的規則同元素名,屬性值由單引號或雙引號括約其中,可由除XML保留字符以外的字符串組成,如:<mytag myprop=proper value>。屬性名有xmlns前綴,表明該屬性定義了一個名域,如:<mytag xmlns:ns=http://www.myweb.com/myschema
          >
          句法特征:
          1XML文檔由一個XML說明、多個可選的文檔說明、多個可選的XML指令、多個可選的XML注釋和一個根元素的數據體組成,此外還可以有嵌入語句中的CDATA段,如:
              <?xml ?> /*XML說明*/
            <!DOCTYPE > /*XML文檔說明*/
            <!-- --> /*XML注釋*/
            <?xml-stylesheet ?> /*XML指令*/
            <root> /*根數據元素*/
            <child>
            …<![CDATA[]]>
            </child>
            </root>
          2XML說明由<?xml打開,由?>標關閉,其中包含版本、編碼等可選說明,如:<?xml version=1.0 encoding=UTF-9?>
          3XML文檔說明由<!和保留串打開,由>關閉,如:<!DOCTYPE mydoc SYSTEM mydoc.dtd>
          4)XML指令由<?和保留串打開,由?>關閉,如:<?xml-stylesheet type=text/xsl href=mystyle.xsl?>
          5XML注釋由<!――打開,由――>關閉,如:<!--   this is my xml document  -->
          6XML元素由<元素名>打開,由/>,或</元素名>關閉,元素的打開和關閉標記相互匹配,如<myteg ../><mytag></myteg>,XML的元素允許嵌套,應此還應保持層次上的匹配,如<myteg><subtag>..</subtag></mytag>
          7CDTATA段由<![CDATA[>打開,由]]>關閉,用于使居于其中的語句規避XML解析規則。如:<![CDATA[ select * from mytable where thefield <= 100 ]]>
            根據以上的XML文法特征,可以構造出用于詞法分析的正則式和用于句法分析的下推自動機結構。
            XML詞法正則式:
            #define digit [1,2,,9] /*數字字符*/
            #define letter [a,b,,z,A,B,,Z] /*字母字符*/
            #define signs [~, ! , @, #, %, ^, &,*,(, ), ?, :, ;, , , ,, ., /,-, _, +, =, |, \] /*符號字符*/
            #define ascii2 [0x80,,0xFF] /*ASCII chart2 擴展字符*/
            #define space [0x20, \t, \r, \n] /*空格符,跳格符,回車符,換行符*/
            #define reserve [< , >, &] /*XML保留字符*/
            1元素名的正則式:
            element_name -> (_ | letter | ascii2) (ε| _ | - | : | . | digit | letter | signs | ascii2)*
            2元素文本的正則式:
            element_text -> (ε| not reserve)*
            3屬性名的正則式:
            proper_name -> (_ | letter | ascii2) (ε| _ | - | : | . | digit | letter | signs | ascii2)*
            4屬性文本的正則式:
            proper_value -> (ε| not reserve)*

           



          posted on 2006-09-18 08:44 周銳 閱讀(270) 評論(0)  編輯  收藏 所屬分類: Java 、XML
          主站蜘蛛池模板: 宁远县| 南岸区| 宜君县| 塘沽区| 吉隆县| 海丰县| 安庆市| 水城县| 浦东新区| 黔西县| 梓潼县| SHOW| 灯塔市| 临沂市| 五莲县| 阳新县| 德阳市| 辉县市| 信丰县| 枝江市| 阳曲县| 禄劝| 郴州市| 荥经县| 潮州市| 郧西县| 东丰县| 呼图壁县| 扬中市| 阿勒泰市| 嫩江县| 安康市| 三明市| 桑日县| 吴桥县| 类乌齐县| 东兰县| 温宿县| 广宗县| 团风县| 黄陵县|