tinguo002

           

          java過濾 HTML代碼

          文章參考:http://blog.csdn.net/zdtwyjp/article/details/5736252

          ------------------------------------------------------------------------
          package com.linewell.was.util;
          import java.util.regex.Pattern;
          /**
           * 截取HTML代碼
           * 
           * 
          @author YangJunping
           * @date 2010-7-15
           
          */

          public class Html2Text {
              
          public static void main(String[] args) {
                  StringBuffer htmlStr 
          = new StringBuffer();
                  htmlStr.append(
          "<!DOCTYPE html PUBLIC '-//W3C//DTD XHTML 1.0 Transitional//EN' 'http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd'>")
                         .append(
          "<html xmlns='http://www.w3.org/1999/xhtml' xml:lang='en'><head><title>aaa</title><mce:script type='text/javascript'></mce:script>")
                         .append(
          "<link href='static_files/help.css' mce_href='static_files/help.css' rel='stylesheet' type='text/css' media='all' />")
                         .append(
          "</head><body><ul><li>XXXX</li></ul><p>ppp</p><img src='d:\tt.jpg'></img></body></html>");
                  
                  System.out.println(htmlStr.toString());
                  System.out.println(Html2Text(htmlStr.toString()));
              }

              
          public static String Html2Text(String inputString) {    
                  String htmlStr 
          = inputString; // 含html標簽的字符串    
                  String textStr = "";    
                  java.util.regex.Pattern p_script;    
                  java.util.regex.Matcher m_script;    
                  java.util.regex.Pattern p_style;    
                  java.util.regex.Matcher m_style;    
                  java.util.regex.Pattern p_html;    
                  java.util.regex.Matcher m_html;    
            
                  java.util.regex.Pattern p_html1;    
                  java.util.regex.Matcher m_html1;    
            
                 
          try {    
                      String regEx_script 
          = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>"// 定義script的正則表達式{或<script[^>]*?>[//s//S]*?<///script>    
                      String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>"// 定義style的正則表達式{或<style[^>]*?>[//s//S]*?<///style>    
                      String regEx_html = "<[^>]+>"// 定義HTML標簽的正則表達式    
                      String regEx_html1 = "<[^>]+";    
                      p_script 
          = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);    
                      m_script 
          = p_script.matcher(htmlStr);    
                      htmlStr 
          = m_script.replaceAll(""); // 過濾script標簽    
            
                      p_style 
          = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);    
                      m_style 
          = p_style.matcher(htmlStr);    
                      htmlStr 
          = m_style.replaceAll(""); // 過濾style標簽    
            
                      p_html 
          = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);    
                      m_html 
          = p_html.matcher(htmlStr);    
                      htmlStr 
          = m_html.replaceAll(""); // 過濾html標簽    
            
                      p_html1 
          = Pattern.compile(regEx_html1, Pattern.CASE_INSENSITIVE);    
                      m_html1 
          = p_html1.matcher(htmlStr);    
                      htmlStr 
          = m_html1.replaceAll(""); // 過濾html標簽    
            
                      textStr 
          = htmlStr;    
            
                  }
           catch (Exception e) {    
                      System.err.println(
          "Html2Text: " + e.getMessage());    
                  }
              
            
                 
          return textStr;// 返回文本字符串    
              }
             
          }
          -----

           

          歡迎大家訪問我的個人網站 萌萌的IT人

          posted on 2013-01-29 13:59 一堣而安 閱讀(1423) 評論(0)  編輯  收藏 所屬分類: java

          導航

          統計

          常用鏈接

          留言簿(1)

          隨筆分類

          隨筆檔案

          收藏夾

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 洛扎县| 同仁县| 开化县| 怀仁县| 科尔| 阳原县| 梁平县| 西青区| 潜山县| 宁强县| 黑水县| 延寿县| 新蔡县| 通道| 互助| 鹿邑县| 宜春市| 合川市| 绥德县| 苍梧县| 富民县| 廉江市| 丰都县| 平邑县| 葫芦岛市| 盱眙县| 永平县| 无为县| 曲松县| 河曲县| 六盘水市| 林口县| 渝中区| 登封市| 晴隆县| 松桃| 天长市| 华容县| 沐川县| 元江| 饶河县|