老妖的博客
          現(xiàn)實(shí)的中沒有幾個(gè)人能夠真為對(duì)方去死,甚至山盟海誓很快就會(huì)在金錢面前變的微不足道,這才是生活。沒有永遠(yuǎn)的愛,除了你的父母對(duì)你,當(dāng)然也就沒有永遠(yuǎn)的恨,更沒有永遠(yuǎn)的痛,時(shí)間是最好的治療大師,它會(huì)很快撫平你心靈上累累的傷痕。很多年以后你想起來時(shí),那些在你生命中洶涌來往的人群至多是個(gè)模糊的影子或者毫無意義的名字
          posts - 105,  comments - 171,  trackbacks - 0
          import org.htmlparser.Node;
          import org.htmlparser.NodeFilter;
          import org.htmlparser.Parser;
          import org.htmlparser.filters.TagNameFilter;
          import org.htmlparser.tags.TableTag;
          import org.htmlparser.util.NodeList;

          /**
           * <br>
           * 標(biāo)題: <br>
           * 功能概要: <br>
           * 版權(quán): cityyouth.cn (c) 2005 <br>
           * 公司:上海城市青年網(wǎng) <br>
           * 創(chuàng)建時(shí)間:2005-12-21 <br>
           * 修改時(shí)間: <br>
           * 修改原因:
           * 
           * 
          @author 張偉
           * 
          @version 1.0
           
          */
          public class TestYahoo {
              
          public static void testHtml() {
                  
          try {
                      String sCurrentLine;
                      String sTotalString;
                      sCurrentLine 
          = "";
                      sTotalString 
          = "";
                      java.io.InputStream l_urlStream;
                      java.net.URL l_url 
          = new java.net.URL(
                              
          "http://sports.sina.com.cn/iframe/nba/live/");
                      java.net.HttpURLConnection l_connection 
          = (java.net.HttpURLConnection) l_url
                              .openConnection();
                      l_connection.connect();
                      l_urlStream 
          = l_connection.getInputStream();
                      java.io.BufferedReader l_reader 
          = new java.io.BufferedReader(
                              
          new java.io.InputStreamReader(l_urlStream));
                      
          while ((sCurrentLine = l_reader.readLine()) != null) {
                          sTotalString 
          += sCurrentLine;
                      }
                      System.out.println(sTotalString);

                      System.out.println(
          "====================");
                      String testText 
          = extractText(sTotalString);
                      System.out.println(testText);
                  } 
          catch (Exception e) {
                      e.printStackTrace();
                  }

              }

              
          /**
               * 抽取純文本信息
               * 
               * 
          @param inputHtml
               * 
          @return
               
          */
              
          public static String extractText(String inputHtml) throws Exception {
                  StringBuffer text 
          = new StringBuffer();

                  Parser parser 
          = Parser.createParser(new String(inputHtml.getBytes(),
                          
          "8859_1"), "8859-1");
                  
          // 遍歷所有的節(jié)點(diǎn)
                  NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
                      
          public boolean accept(Node node) {
                          
          return true;
                      }
                  });
                  Node node 
          = nodes.elementAt(0);
                  text.append(
          new String(node.toPlainTextString().getBytes("8859_1")));
                  
          return text.toString();
              }

              
          /**
               * 讀取文件的方式來分析內(nèi)容. filePath也可以是一個(gè)Url.
               * 
               * 
          @param resource
               *            文件/Url
               
          */
              
          public static void test5(String resource) throws Exception {
                  Parser myParser 
          = new Parser(resource);

                  
          // 設(shè)置編碼
                  myParser.setEncoding("GBK");
                  String filterStr 
          = "table";
                  NodeFilter filter 
          = new TagNameFilter(filterStr);
                  NodeList nodeList 
          = myParser.extractAllNodesThatMatch(filter);
                  TableTag tabletag 
          = (TableTag) nodeList.elementAt(11);
                      
                      System.out.println(tabletag.toHtml());
                      
                      System.out.println(
          "==============");

              }

              
          /*
               * public static void main(String[] args) { TestYahoo testYahoo = new
               * TestYahoo(); testYahoo.testHtml(); }
               
          */
              
          public static void main(String[] args) throws Exception {
                  test5(
          "http://sports.yahoo.com/nba/scoreboard");
              }
          }
          posted on 2005-12-21 22:35 老妖 閱讀(24413) 評(píng)論(30)  編輯  收藏 所屬分類: java心得

          FeedBack:
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2005-12-23 09:05 | 1
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2005-12-24 12:04 | 111
          好文,繼續(xù)貫注,快發(fā)(二)吧.  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2006-05-18 17:16 | 第六世紀(jì)
          <link href='/c06/css.css' text='text/css' rel='stylesheet' />

          如何解析出/c06/css.css 呢?

          htmlparser不識(shí)別link 和script標(biāo)簽  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2006-06-06 20:58 | xvg
          can I make friends with you  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2006-06-06 20:59 | xvg
          my msn: thron_xv@msn.com
          QQ: 59346219  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2006-07-04 17:50 | 斯瓦伊安
          Proxy要怎麼設(shè) 連線無法連出  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2006-07-20 16:06 | 斯瓦伊安
          ConnectionManager cm = new ConnectionManager();
          cm.setProxyHost("XXX.XXX.XXX.XXX");
          cm.setProxyPort(8080);
            回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2006-09-05 10:08 | max
          htmlparser可以抓取動(dòng)態(tài)生成的鏈接么?比如由表單所臨時(shí)返回的響應(yīng)等。  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-01-24 11:18 | hunhun
          你們這些人真無聊,就不回自己寫點(diǎn)東西 。就知道弄?jiǎng)e人的東西轉(zhuǎn)載
          百度一搜全一樣 都來自一個(gè)地方 。  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-05-09 22:59 | 監(jiān)聽器
          誰規(guī)定不能轉(zhuǎn)的?  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-08-25 16:12 | 內(nèi)容被禁止顯示
          頂一個(gè),不錯(cuò)  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-08-25 16:13 | 監(jiān)聽器
          不錯(cuò)不錯(cuò)  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-09-19 14:19 | 新開征途私服
          轉(zhuǎn)載文章可以讓更多的人看到  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-09-19 14:19 | 征途私服
          轉(zhuǎn)載無罪,有罪的是剽竊和抄襲的  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-11-05 13:51 | 內(nèi)容被禁止顯示
          好東西  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-11-05 13:52 | 監(jiān)聽器
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-11-29 16:34 | 11xp
          gdfgdfgdfgdfg  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-11-30 09:52 | 11sss
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-11-30 09:53 | 44xp
          fzsdvcxzv  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2007-12-25 13:48 | gengqian
          qianqian1216@gmail.com
          我想學(xué)學(xué)給我發(fā)一個(gè)完整的小例子好嗎,謝了老兄  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)[未登錄]
          2008-01-22 17:28 | hehe
          詳細(xì)點(diǎn)好嗎  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2008-01-28 18:21 | tarzan
          能詳細(xì)點(diǎn)就更好了  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2008-02-21 10:06 | zhade
          寫的真好!  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2009-06-16 12:57 | springbird
          高手你好,可否發(fā)一個(gè)用htmlparser解析網(wǎng)頁的小例子,要求提取網(wǎng)頁內(nèi)的標(biāo)題,作者,正文,提取的網(wǎng)頁是純文本的,謝謝,我的郵箱是springbird2006@126.com  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)[未登錄]
          2009-10-09 14:09 | 三少
          http://www.gbsou.com
          可以交換鏈接不 兄弟 我也是做j2ee的  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁內(nèi)容(一)
          2012-01-04 17:02 | S771880049
          都一樣  回復(fù)  更多評(píng)論
            

          <2012年1月>
          25262728293031
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          常用鏈接

          隨筆分類(48)

          隨筆檔案(104)

          好友鏈接

          我的豆瓣

          積分與排名

          • 積分 - 221084
          • 排名 - 257

          最新評(píng)論

          閱讀排行榜

          主站蜘蛛池模板: 腾冲县| 黄梅县| 肃北| 阜平县| 恭城| 桓台县| 健康| 赤城县| 临高县| 华蓥市| 梁山县| 清镇市| 上栗县| 敦煌市| 嵊泗县| 青龙| 铜鼓县| 依兰县| 仙游县| 蓝田县| 开平市| 中阳县| 龙山县| 兴化市| 福建省| 乌鲁木齐县| 郴州市| 高州市| 邓州市| 碌曲县| 迭部县| 卓尼县| 康马县| 泽库县| 岑巩县| 武冈市| 临汾市| 枣强县| 古蔺县| 屏南县| 正镶白旗|