老妖的博客
          現實的中沒有幾個人能夠真為對方去死,甚至山盟海誓很快就會在金錢面前變的微不足道,這才是生活。沒有永遠的愛,除了你的父母對你,當然也就沒有永遠的恨,更沒有永遠的痛,時間是最好的治療大師,它會很快撫平你心靈上累累的傷痕。很多年以后你想起來時,那些在你生命中洶涌來往的人群至多是個模糊的影子或者毫無意義的名字
          posts - 105,  comments - 171,  trackbacks - 0
          import org.htmlparser.Node;
          import org.htmlparser.NodeFilter;
          import org.htmlparser.Parser;
          import org.htmlparser.filters.TagNameFilter;
          import org.htmlparser.tags.TableTag;
          import org.htmlparser.util.NodeList;

          /**
           * <br>
           * 標題: <br>
           * 功能概要: <br>
           * 版權: cityyouth.cn (c) 2005 <br>
           * 公司:上海城市青年網 <br>
           * 創建時間:2005-12-21 <br>
           * 修改時間: <br>
           * 修改原因:
           * 
           * 
          @author 張偉
           * 
          @version 1.0
           
          */
          public class TestYahoo {
              
          public static void testHtml() {
                  
          try {
                      String sCurrentLine;
                      String sTotalString;
                      sCurrentLine 
          = "";
                      sTotalString 
          = "";
                      java.io.InputStream l_urlStream;
                      java.net.URL l_url 
          = new java.net.URL(
                              
          "http://sports.sina.com.cn/iframe/nba/live/");
                      java.net.HttpURLConnection l_connection 
          = (java.net.HttpURLConnection) l_url
                              .openConnection();
                      l_connection.connect();
                      l_urlStream 
          = l_connection.getInputStream();
                      java.io.BufferedReader l_reader 
          = new java.io.BufferedReader(
                              
          new java.io.InputStreamReader(l_urlStream));
                      
          while ((sCurrentLine = l_reader.readLine()) != null) {
                          sTotalString 
          += sCurrentLine;
                      }
                      System.out.println(sTotalString);

                      System.out.println(
          "====================");
                      String testText 
          = extractText(sTotalString);
                      System.out.println(testText);
                  } 
          catch (Exception e) {
                      e.printStackTrace();
                  }

              }

              
          /**
               * 抽取純文本信息
               * 
               * 
          @param inputHtml
               * 
          @return
               
          */
              
          public static String extractText(String inputHtml) throws Exception {
                  StringBuffer text 
          = new StringBuffer();

                  Parser parser 
          = Parser.createParser(new String(inputHtml.getBytes(),
                          
          "8859_1"), "8859-1");
                  
          // 遍歷所有的節點
                  NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
                      
          public boolean accept(Node node) {
                          
          return true;
                      }
                  });
                  Node node 
          = nodes.elementAt(0);
                  text.append(
          new String(node.toPlainTextString().getBytes("8859_1")));
                  
          return text.toString();
              }

              
          /**
               * 讀取文件的方式來分析內容. filePath也可以是一個Url.
               * 
               * 
          @param resource
               *            文件/Url
               
          */
              
          public static void test5(String resource) throws Exception {
                  Parser myParser 
          = new Parser(resource);

                  
          // 設置編碼
                  myParser.setEncoding("GBK");
                  String filterStr 
          = "table";
                  NodeFilter filter 
          = new TagNameFilter(filterStr);
                  NodeList nodeList 
          = myParser.extractAllNodesThatMatch(filter);
                  TableTag tabletag 
          = (TableTag) nodeList.elementAt(11);
                      
                      System.out.println(tabletag.toHtml());
                      
                      System.out.println(
          "==============");

              }

              
          /*
               * public static void main(String[] args) { TestYahoo testYahoo = new
               * TestYahoo(); testYahoo.testHtml(); }
               
          */
              
          public static void main(String[] args) throws Exception {
                  test5(
          "http://sports.yahoo.com/nba/scoreboard");
              }
          }
          posted on 2005-12-21 22:35 老妖 閱讀(24413) 評論(30)  編輯  收藏 所屬分類: java心得

          FeedBack:
          # re: 利用htmlparser抓取網頁內容(一)
          2005-12-23 09:05 | 1
          1  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2005-12-24 12:04 | 111
          好文,繼續貫注,快發(二)吧.  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2006-05-18 17:16 | 第六世紀
          <link href='/c06/css.css' text='text/css' rel='stylesheet' />

          如何解析出/c06/css.css 呢?

          htmlparser不識別link 和script標簽  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2006-06-06 20:58 | xvg
          can I make friends with you  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2006-06-06 20:59 | xvg
          my msn: thron_xv@msn.com
          QQ: 59346219  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2006-07-04 17:50 | 斯瓦伊安
          Proxy要怎麼設 連線無法連出  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2006-07-20 16:06 | 斯瓦伊安
          ConnectionManager cm = new ConnectionManager();
          cm.setProxyHost("XXX.XXX.XXX.XXX");
          cm.setProxyPort(8080);
            回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2006-09-05 10:08 | max
          htmlparser可以抓取動態生成的鏈接么?比如由表單所臨時返回的響應等。  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2006-11-28 14:24 | LeVaN
          # re: 利用htmlparser抓取網頁內容(一)
          2007-01-24 11:18 | hunhun
          你們這些人真無聊,就不回自己寫點東西 。就知道弄別人的東西轉載
          百度一搜全一樣 都來自一個地方 。  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-05-09 22:59 | 監聽器
          誰規定不能轉的?  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-08-25 16:12 | 內容被禁止顯示
          頂一個,不錯  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-08-25 16:13 | 監聽器
          不錯不錯  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-09-19 14:19 | 新開征途私服
          轉載文章可以讓更多的人看到  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-09-19 14:19 | 征途私服
          轉載無罪,有罪的是剽竊和抄襲的  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-11-05 13:51 | 內容被禁止顯示
          好東西  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-11-05 13:52 | 監聽器
          恩好  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          # re: 利用htmlparser抓取網頁內容(一)
          # re: 利用htmlparser抓取網頁內容(一)
          2007-11-29 16:34 | 11xp
          gdfgdfgdfgdfg  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-11-30 09:52 | 11sss
          vzxcvxc  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-11-30 09:53 | 44xp
          fzsdvcxzv  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2007-12-25 13:48 | gengqian
          qianqian1216@gmail.com
          我想學學給我發一個完整的小例子好嗎,謝了老兄  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)[未登錄]
          2008-01-22 17:28 | hehe
          詳細點好嗎  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2008-01-28 18:21 | tarzan
          能詳細點就更好了  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2008-02-21 10:06 | zhade
          寫的真好!  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2008-03-11 15:14 | link
          # re: 利用htmlparser抓取網頁內容(一)
          2009-06-16 12:57 | springbird
          高手你好,可否發一個用htmlparser解析網頁的小例子,要求提取網頁內的標題,作者,正文,提取的網頁是純文本的,謝謝,我的郵箱是springbird2006@126.com  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)[未登錄]
          2009-10-09 14:09 | 三少
          http://www.gbsou.com
          可以交換鏈接不 兄弟 我也是做j2ee的  回復  更多評論
            
          # re: 利用htmlparser抓取網頁內容(一)
          2012-01-04 17:02 | S771880049
          都一樣  回復  更多評論
            

          <2009年10月>
          27282930123
          45678910
          11121314151617
          18192021222324
          25262728293031
          1234567

          常用鏈接

          隨筆分類(48)

          隨筆檔案(104)

          好友鏈接

          我的豆瓣

          積分與排名

          • 積分 - 221136
          • 排名 - 257

          最新評論

          閱讀排行榜

          主站蜘蛛池模板: 四川省| 阿瓦提县| 普兰县| 中阳县| 龙南县| 高青县| 金川县| 唐河县| 凤城市| 大安市| 清徐县| 绵竹市| 兴海县| 海口市| 黄浦区| 微博| 北川| 孝昌县| 灵寿县| 浦江县| 香港| 内丘县| 四川省| 乌审旗| 临邑县| 信宜市| 广河县| 将乐县| 建始县| 大埔区| 高雄市| 正定县| 神木县| 紫阳县| 平南县| 高青县| 成安县| 武山县| 安化县| 青岛市| 三门峡市|