BlueSpace
思想有多遠(yuǎn)，我們就能走多遠(yuǎn)！

BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理

posts - 0, comments - 5, trackbacks - 0

<

2025年8月

>

日

一

二

三

四

五

六

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

留言簿(1)

我參與的團(tuán)隊

深圳Java俱樂部(0/0)

文章分類

文章檔案

相冊

my photo

http://www.aygfsteel.com/beansoft

http://www.aygfsteel.com/sterning
http://www.aygfsteel.com/sterning

搜索

最新評論

1.?re: xfire aegis轉(zhuǎn)
評論內(nèi)容較長,點(diǎn)擊標(biāo)題查看
--啊啊啊
2.?re: xfire aegis轉(zhuǎn)
itn
--吃飯會非常
3.?re: distinct 與 order by
“select * from test group by name”這個SQL語句有問題，執(zhí)行不了
--didi
4.?re: java讀取excel文件
good,so well,
--1111
5.?re: 正則表達(dá)式,不區(qū)分大小寫的替換
評論內(nèi)容較長,點(diǎn)擊標(biāo)題查看
--新手。

正則2

三、應(yīng)用實(shí)例

下面我們來看看Jakarta-ORO庫的一些應(yīng)用實(shí)例。

3.1 日志文件處理

任務(wù)：分析一個Web服務(wù)器日志文件，確定每一個用戶花在網(wǎng)站上的時間。在典型的BEA WebLogic日志文件中，日志記錄的格式如下：

分析這個日志記錄，可以發(fā)現(xiàn)，要從這個日志文件提取的內(nèi)容有兩項：IP地址和頁面訪問時間。你可以用分組符號（圓括號）從日志記錄提取出IP地址和時間標(biāo)記。

首先我們來看看IP地址。IP地址有4個字節(jié)構(gòu)成，每一個字節(jié)的值在0到255之間，各個字節(jié)通過一個句點(diǎn)分隔。因此，IP地址中的每一個字節(jié)有至少一個、最多三個數(shù)字。圖八顯示了為IP地址編寫的正則表達(dá)式：

圖八：匹配IP地址

IP地址中的句點(diǎn)字符必須進(jìn)行轉(zhuǎn)義處理（前面加上“\”），因為IP地址中的句點(diǎn)具有它本來的含義，而不是采用正則表達(dá)式語法中的特殊含義。句點(diǎn)在正則表達(dá)式中的特殊含義本文前面已經(jīng)介紹。

日志記錄的時間部分由一對方括號包圍。你可以按照如下思路提取出方括號里面的所有內(nèi)容：首先搜索起始方括號字符（“[”），提取出所有不超過結(jié)束方括號字符（“]”）的內(nèi)容，向前尋找直至找到結(jié)束方括號字符。圖九顯示了這部分的正則表達(dá)式。

圖九：匹配至少一個字符，直至找到“]”

現(xiàn)在，把上述兩個正則表達(dá)式加上分組符號（圓括號）后合并成單個表達(dá)式，這樣就可以從日志記錄提取出IP地址和時間。注意，為了匹配“- -”（但不提取它），正則表達(dá)式中間加入了“\s-\s-\s”。完整的正則表達(dá)式如圖十所示。

圖十：匹配IP地址和時間標(biāo)記

現(xiàn)在正則表達(dá)式已經(jīng)編寫完畢，接下來可以編寫使用正則表達(dá)式庫的Java代碼了。

為使用Jakarta-ORO庫，首先創(chuàng)建正則表達(dá)式字符串和待分析的日志記錄字符串：

這里使用的正則表達(dá)式與圖十的正則表達(dá)式差不多完全相同，但有一點(diǎn)例外：在Java中，你必須對每一個向前的斜杠（“\”）進(jìn)行轉(zhuǎn)義處理。圖十不是Java的表示形式，所以我們要在每個“\”前面加上一個“\”以免出現(xiàn)編譯錯誤。遺憾的是，轉(zhuǎn)義處理過程很容易出現(xiàn)錯誤，所以應(yīng)該小心謹(jǐn)慎。你可以首先輸入未經(jīng)轉(zhuǎn)義處理的正則表達(dá)式，然后從左到右依次把每一個“\”替換成“\\”。如果要復(fù)檢，你可以試著把它輸出到屏幕上。

初始化字符串之后，實(shí)例化PatternCompiler對象，用PatternCompiler編譯正則表達(dá)式創(chuàng)建一個Pattern對象：

現(xiàn)在，創(chuàng)建PatternMatcher對象，調(diào)用PatternMatcher接口的contain()方法檢查匹配情況：

接下來，利用PatternMatcher接口返回的MatchResult對象，輸出匹配的組。由于logEntry字符串包含匹配的內(nèi)容，你可以看到類如下面的輸出：

3.2 HTML處理實(shí)例一

下面一個任務(wù)是分析HTML頁面內(nèi)FONT標(biāo)記的所有屬性。HTML頁面內(nèi)典型的FONT標(biāo)記如下所示：

程序?qū)凑杖缦滦问剑敵雒恳粋€FONT標(biāo)記的屬性：

在這種情況下，我建議你使用兩個正則表達(dá)式。第一個如圖十一所示，它從字體標(biāo)記提取出“"face="Arial, Serif" size="+2" color="red"”。

圖十一：匹配FONT標(biāo)記的所有屬性

第二個正則表達(dá)式如圖十二所示，它把各個屬性分割成名字-值對。

圖十二：匹配單個屬性，并把它分割成名字-值對

分割結(jié)果為：

現(xiàn)在我們來看看完成這個任務(wù)的Java代碼。首先創(chuàng)建兩個正則表達(dá)式字符串，用Perl5Compiler把它們編譯成Pattern對象。編譯正則表達(dá)式的時候，指定Perl5Compiler.CASE_INSENSITIVE_MASK選項，使得匹配操作不區(qū)分大小寫。

接下來，創(chuàng)建一個執(zhí)行匹配操作的Perl5Matcher對象。

假設(shè)有一個String類型的變量html，它代表了HTML文件中的一行內(nèi)容。如果html字符串包含F(xiàn)ONT標(biāo)記，匹配器將返回true。此時，你可以用匹配器對象返回的MatchResult對象獲得第一個組，它包含了FONT的所有屬性：

接下來創(chuàng)建一個PatternMatcherInput對象。這個對象允許你從最后一次匹配的位置開始繼續(xù)進(jìn)行匹配操作，因此，它很適合于提取FONT標(biāo)記內(nèi)屬性的名字-值對。創(chuàng)建PatternMatcherInput對象，以參數(shù)形式傳入待匹配的字符串。然后，用匹配器實(shí)例提取出每一個FONT的屬性。這通過指定PatternMatcherInput對象（而不是字符串對象）為參數(shù)，反復(fù)地調(diào)用PatternMatcher對象的contains()方法完成。PatternMatcherInput對象之中的每一次迭代將把它內(nèi)部的指針向前移動，下一次檢測將從前一次匹配位置的后面開始。

本例的輸出結(jié)果如下：

3.3 HTML處理實(shí)例二

下面我們來看看另一個處理HTML的例子。這一次，我們假定Web服務(wù)器從widgets.acme.com移到了newserver.acme.com。現(xiàn)在你要修改一些頁面中的鏈接：

執(zhí)行這個搜索的正則表達(dá)式如圖十三所示：

圖十三：匹配修改前的鏈接

如果能夠匹配這個正則表達(dá)式，你可以用下面的內(nèi)容替換圖十三的鏈接：

注意#字符的后面加上了$1。Perl正則表達(dá)式語法用$1、$2等表示已經(jīng)匹配且提取出來的組。圖十三的表達(dá)式把所有作為一個組匹配和提取出來的內(nèi)容附加到鏈接的后面。

現(xiàn)在，返回Java。就象前面我們所做的那樣，你必須創(chuàng)建測試字符串，創(chuàng)建把正則表達(dá)式編譯到Pattern對象所必需的對象，以及創(chuàng)建一個PatternMatcher對象：

接下來，用com.oroinc.text.regex包Util類的substitute()靜態(tài)方法進(jìn)行替換，輸出結(jié)果字符串：

Util.substitute()方法的語法如下：

這個調(diào)用的前兩個參數(shù)是以前創(chuàng)建的PatternMatcher和Pattern對象。第三個參數(shù)是一個Substiution對象，它決定了替換操作如何進(jìn)行。本例使用的是Perl5Substitution對象，它能夠進(jìn)行Perl5風(fēng)格的替換。第四個參數(shù)是想要進(jìn)行替換操作的字符串，最后一個參數(shù)允許指定是否替換模式的所有匹配子串（Util.SUBSTITUTE_ALL），或只替換指定的次數(shù)。

posted on 2008-06-26 23:01 crazy 閱讀(193) 評論(0) 編輯收藏所屬分類: java

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: java HttpClient html正則處理正則2 正則 java的時間處理 xfire 集合 aegis xfire aegis轉(zhuǎn) 轉(zhuǎn)載判斷是否存在中文 java正則表達(dá)式