posts - 8,  comments - 6,  trackbacks - 0

          2.3  在一個String中查找子串模式

          本章前面的“使用正則表達式來搜索文本”一節說明了如何使用regex模式來比較一個String是否匹配(或部分匹配)一個給定的模式。這里,匹配是從輸入字符串的第一個字符開始的。在本節中,將使用regex模式在一個String中查找多個匹配值。舉例來說,可以在一篇文檔中搜索查找嵌入在正文中的任何URL。首先,需要創建一個匹配URL的模式字符串。下面給出一個能匹配大多數URL的模式:

          String urlString = "(http|https|ftp)://[/\\w\\.\\-\\+\\?%=&;:,#]+";

          此模式并不能有效地描述URL,因為它也匹配一些包含錯誤語法的URL字符串,如http://////////。在一些情況下它也會捕獲額外的字符,如可能緊跟在嵌入到正文中的URL之后的逗號或分號。這些字符有時會出現在URL中,但是如果URL出現在正文中,這些字符可能不希望URL的一部分而被捕獲。但該模式相對簡短并且能夠很好地用于搜索文本文件中包含的URL。此模式表達式的各部分如下所示:

          ●  http、https或ftp 
          ●  ://
          ● / 0-9 A-Z a-z _ . - + ? % = & ; : , #中的一個或多個字符
          我們知道,Matcher可以將一個模式應用到一個特殊的輸入字符串。為了使用前面定義的urlString模式查找多個子串匹配,必須調用Matcher的find方法。為了在輸入字符串內找到每一個出現的模式,可以重復調用find方法來查找下一個匹配。當沒有更多的匹配時,find方法返回false。為了獲取當前匹配的位置,可以使用start和end方法來獲得索引值以在輸入文本中的范圍內進行匹配。以下的代碼將顯示數據內找到的所有URL:

          String urlString = "(http|https|ftp)://[/\\w\\.\\-\\+\\?%=&;:,#]+";
          Pattern urlPattern = Pattern.compile(urlString);
          // get the data (somehow)
          String data = getStringData();
          // get a matcher for the data
          Matcher urlMatcher = urlPattern.matcher(data);
          // iterate through the matches
          while (urlMatcher.find()) {
          int startIndex = urlMatcher.start();   // index of start
          int endIndex = urlMatcher.end();        // index of end + 1
          // retrieve the matching substring
          String currentMatch = data.substring(startIndex, endIndex);
          System.out.println(currentMatch);
          }

          此代碼將不能匹配相對的URL(如/images/picture.jpg),這些URL常常出現在HTML文件或省略前置http://的不完整的URL(如wickedcooljava.com)中。為了知道何時應該將某字符串作為相對URL來對待,程序必須理解HTML文件的結構(使用regex也可完成此任務,但是要更困難些)。需要知道每個匹配的上下文,為此必須在理解其語法的基礎上分析文件。若想了解更多的信息,請參考第3章。

          posted on 2008-12-09 09:29 ♂游泳的魚 閱讀(445) 評論(1)  編輯  收藏

          FeedBack:
          # re: 2.3 在一個String中查找子串模式
          2014-12-09 15:03 | 獵頭招聘
          在一個String中查找子串模式看了好幾篇還是不太懂,看來要回去看第三章。  回復  更多評論
            

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           

          <2014年12月>
          30123456
          78910111213
          14151617181920
          21222324252627
          28293031123
          45678910

          留言簿(1)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          主站蜘蛛池模板: 兴仁县| 泰和县| 滨海县| 广元市| 翼城县| 伊通| 稻城县| 黑河市| 密云县| 永和县| 思南县| 东乡族自治县| 朝阳市| 资溪县| 甘南县| 双流县| 和田市| 盐亭县| 陈巴尔虎旗| 诏安县| 滨海县| 乌拉特后旗| 高碑店市| 苍南县| 潞城市| 嵩明县| 永丰县| 榆树市| 越西县| 安溪县| 天津市| 中牟县| 新昌县| 年辖:市辖区| 监利县| 宝兴县| 白朗县| 石河子市| 洪泽县| 泉州市| 海伦市|