tinguo002

           

          java過濾 HTML代碼

          文章參考:http://blog.csdn.net/zdtwyjp/article/details/5736252

          ------------------------------------------------------------------------
          package com.linewell.was.util;
          import java.util.regex.Pattern;
          /**
           * 截取HTML代碼
           * 
           * 
          @author YangJunping
           * @date 2010-7-15
           
          */

          public class Html2Text {
              
          public static void main(String[] args) {
                  StringBuffer htmlStr 
          = new StringBuffer();
                  htmlStr.append(
          "<!DOCTYPE html PUBLIC '-//W3C//DTD XHTML 1.0 Transitional//EN' 'http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd'>")
                         .append(
          "<html xmlns='http://www.w3.org/1999/xhtml' xml:lang='en'><head><title>aaa</title><mce:script type='text/javascript'></mce:script>")
                         .append(
          "<link href='static_files/help.css' mce_href='static_files/help.css' rel='stylesheet' type='text/css' media='all' />")
                         .append(
          "</head><body><ul><li>XXXX</li></ul><p>ppp</p><img src='d:\tt.jpg'></img></body></html>");
                  
                  System.out.println(htmlStr.toString());
                  System.out.println(Html2Text(htmlStr.toString()));
              }

              
          public static String Html2Text(String inputString) {    
                  String htmlStr 
          = inputString; // 含html標簽的字符串    
                  String textStr = "";    
                  java.util.regex.Pattern p_script;    
                  java.util.regex.Matcher m_script;    
                  java.util.regex.Pattern p_style;    
                  java.util.regex.Matcher m_style;    
                  java.util.regex.Pattern p_html;    
                  java.util.regex.Matcher m_html;    
            
                  java.util.regex.Pattern p_html1;    
                  java.util.regex.Matcher m_html1;    
            
                 
          try {    
                      String regEx_script 
          = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>"// 定義script的正則表達式{或<script[^>]*?>[//s//S]*?<///script>    
                      String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>"// 定義style的正則表達式{或<style[^>]*?>[//s//S]*?<///style>    
                      String regEx_html = "<[^>]+>"// 定義HTML標簽的正則表達式    
                      String regEx_html1 = "<[^>]+";    
                      p_script 
          = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);    
                      m_script 
          = p_script.matcher(htmlStr);    
                      htmlStr 
          = m_script.replaceAll(""); // 過濾script標簽    
            
                      p_style 
          = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);    
                      m_style 
          = p_style.matcher(htmlStr);    
                      htmlStr 
          = m_style.replaceAll(""); // 過濾style標簽    
            
                      p_html 
          = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);    
                      m_html 
          = p_html.matcher(htmlStr);    
                      htmlStr 
          = m_html.replaceAll(""); // 過濾html標簽    
            
                      p_html1 
          = Pattern.compile(regEx_html1, Pattern.CASE_INSENSITIVE);    
                      m_html1 
          = p_html1.matcher(htmlStr);    
                      htmlStr 
          = m_html1.replaceAll(""); // 過濾html標簽    
            
                      textStr 
          = htmlStr;    
            
                  }
           catch (Exception e) {    
                      System.err.println(
          "Html2Text: " + e.getMessage());    
                  }
              
            
                 
          return textStr;// 返回文本字符串    
              }
             
          }
          -----

           

          歡迎大家訪問我的個人網站 萌萌的IT人

          posted on 2013-01-29 13:59 一堣而安 閱讀(1423) 評論(0)  編輯  收藏 所屬分類: java

          導航

          統計

          常用鏈接

          留言簿(1)

          隨筆分類

          隨筆檔案

          收藏夾

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 怀化市| 板桥市| 和龙市| 绥芬河市| 泰州市| 郴州市| 宣恩县| 平顶山市| 克山县| 武定县| 唐河县| 垫江县| 康保县| 韶山市| 宾川县| 高尔夫| 德安县| 泸定县| 定西市| 北安市| 光泽县| 桑日县| 天祝| 奇台县| 长治县| 镶黄旗| 任丘市| 九江市| 磐安县| 阿坝| 垦利县| 浏阳市| 通化市| 股票| 弥勒县| 博爱县| 伊吾县| 成都市| 五寨县| 张家界市| 邳州市|