?????? 眾所周知,XML的快速發展,已經越來越多地出現在數據交互、文件配置和格式化的數據載體中,盡管XML支持的語言越來越多,但是還是有些字符是不被支持的。我在工作中就遇到了這樣的問題,通過.csv文件錄入數據,然后通過在程序中轉化為XML中間文件,再將XML文件錄入進行處理時發生異常,經過分析,是由于.csv文件中含有XML不支持的非法字符。
?????? 查詢XML規范(http://www.w3.org/TR/2004/REC-xml-20040204),得知:XML支持的字符范圍:
[2]??? |
Char |
???::=??? |
#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] |
/* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */ |
從字符串中檢測XML不支持的字符的Java代碼: