tinguo002

           

          java過濾 HTML代碼

          文章參考:http://blog.csdn.net/zdtwyjp/article/details/5736252

          ------------------------------------------------------------------------
          package com.linewell.was.util;
          import java.util.regex.Pattern;
          /**
           * 截取HTML代碼
           * 
           * 
          @author YangJunping
           * @date 2010-7-15
           
          */

          public class Html2Text {
              
          public static void main(String[] args) {
                  StringBuffer htmlStr 
          = new StringBuffer();
                  htmlStr.append(
          "<!DOCTYPE html PUBLIC '-//W3C//DTD XHTML 1.0 Transitional//EN' 'http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd'>")
                         .append(
          "<html xmlns='http://www.w3.org/1999/xhtml' xml:lang='en'><head><title>aaa</title><mce:script type='text/javascript'></mce:script>")
                         .append(
          "<link href='static_files/help.css' mce_href='static_files/help.css' rel='stylesheet' type='text/css' media='all' />")
                         .append(
          "</head><body><ul><li>XXXX</li></ul><p>ppp</p><img src='d:\tt.jpg'></img></body></html>");
                  
                  System.out.println(htmlStr.toString());
                  System.out.println(Html2Text(htmlStr.toString()));
              }

              
          public static String Html2Text(String inputString) {    
                  String htmlStr 
          = inputString; // 含html標(biāo)簽的字符串    
                  String textStr = "";    
                  java.util.regex.Pattern p_script;    
                  java.util.regex.Matcher m_script;    
                  java.util.regex.Pattern p_style;    
                  java.util.regex.Matcher m_style;    
                  java.util.regex.Pattern p_html;    
                  java.util.regex.Matcher m_html;    
            
                  java.util.regex.Pattern p_html1;    
                  java.util.regex.Matcher m_html1;    
            
                 
          try {    
                      String regEx_script 
          = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>"// 定義script的正則表達(dá)式{或<script[^>]*?>[//s//S]*?<///script>    
                      String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>"// 定義style的正則表達(dá)式{或<style[^>]*?>[//s//S]*?<///style>    
                      String regEx_html = "<[^>]+>"// 定義HTML標(biāo)簽的正則表達(dá)式    
                      String regEx_html1 = "<[^>]+";    
                      p_script 
          = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);    
                      m_script 
          = p_script.matcher(htmlStr);    
                      htmlStr 
          = m_script.replaceAll(""); // 過濾script標(biāo)簽    
            
                      p_style 
          = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);    
                      m_style 
          = p_style.matcher(htmlStr);    
                      htmlStr 
          = m_style.replaceAll(""); // 過濾style標(biāo)簽    
            
                      p_html 
          = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);    
                      m_html 
          = p_html.matcher(htmlStr);    
                      htmlStr 
          = m_html.replaceAll(""); // 過濾html標(biāo)簽    
            
                      p_html1 
          = Pattern.compile(regEx_html1, Pattern.CASE_INSENSITIVE);    
                      m_html1 
          = p_html1.matcher(htmlStr);    
                      htmlStr 
          = m_html1.replaceAll(""); // 過濾html標(biāo)簽    
            
                      textStr 
          = htmlStr;    
            
                  }
           catch (Exception e) {    
                      System.err.println(
          "Html2Text: " + e.getMessage());    
                  }
              
            
                 
          return textStr;// 返回文本字符串    
              }
             
          }
          -----

           

          歡迎大家訪問我的個(gè)人網(wǎng)站 萌萌的IT人

          posted on 2013-01-29 13:59 一堣而安 閱讀(1422) 評(píng)論(0)  編輯  收藏 所屬分類: java

          導(dǎo)航

          統(tǒng)計(jì)

          常用鏈接

          留言簿(1)

          隨筆分類

          隨筆檔案

          收藏夾

          搜索

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          主站蜘蛛池模板: 如皋市| 楚雄市| 长葛市| 应用必备| 乌拉特后旗| 获嘉县| 浮山县| 新疆| 南京市| 辛集市| 汉寿县| 明光市| 巨鹿县| 五大连池市| 舒兰市| 三门县| 武夷山市| 兴仁县| 太白县| 湘潭县| 于都县| 原平市| 宁河县| 万荣县| 望谟县| 阿拉尔市| 略阳县| 昌乐县| 桦南县| 南投市| 城口县| 霞浦县| 石棉县| 上犹县| 礼泉县| 磐安县| 石城县| 沙洋县| 古浪县| 黄骅市| 泊头市|