老妖的博客
          現(xiàn)實(shí)的中沒(méi)有幾個(gè)人能夠真為對(duì)方去死,甚至山盟海誓很快就會(huì)在金錢(qián)面前變的微不足道,這才是生活。沒(méi)有永遠(yuǎn)的愛(ài),除了你的父母對(duì)你,當(dāng)然也就沒(méi)有永遠(yuǎn)的恨,更沒(méi)有永遠(yuǎn)的痛,時(shí)間是最好的治療大師,它會(huì)很快撫平你心靈上累累的傷痕。很多年以后你想起來(lái)時(shí),那些在你生命中洶涌來(lái)往的人群至多是個(gè)模糊的影子或者毫無(wú)意義的名字
          posts - 105,  comments - 171,  trackbacks - 0
          import org.htmlparser.Node;
          import org.htmlparser.NodeFilter;
          import org.htmlparser.Parser;
          import org.htmlparser.filters.TagNameFilter;
          import org.htmlparser.tags.TableTag;
          import org.htmlparser.util.NodeList;

          /**
           * <br>
           * 標(biāo)題: <br>
           * 功能概要: <br>
           * 版權(quán): cityyouth.cn (c) 2005 <br>
           * 公司:上海城市青年網(wǎng) <br>
           * 創(chuàng)建時(shí)間:2005-12-21 <br>
           * 修改時(shí)間: <br>
           * 修改原因:
           * 
           * 
          @author 張偉
           * 
          @version 1.0
           
          */
          public class TestYahoo {
              
          public static void testHtml() {
                  
          try {
                      String sCurrentLine;
                      String sTotalString;
                      sCurrentLine 
          = "";
                      sTotalString 
          = "";
                      java.io.InputStream l_urlStream;
                      java.net.URL l_url 
          = new java.net.URL(
                              
          "http://sports.sina.com.cn/iframe/nba/live/");
                      java.net.HttpURLConnection l_connection 
          = (java.net.HttpURLConnection) l_url
                              .openConnection();
                      l_connection.connect();
                      l_urlStream 
          = l_connection.getInputStream();
                      java.io.BufferedReader l_reader 
          = new java.io.BufferedReader(
                              
          new java.io.InputStreamReader(l_urlStream));
                      
          while ((sCurrentLine = l_reader.readLine()) != null) {
                          sTotalString 
          += sCurrentLine;
                      }
                      System.out.println(sTotalString);

                      System.out.println(
          "====================");
                      String testText 
          = extractText(sTotalString);
                      System.out.println(testText);
                  } 
          catch (Exception e) {
                      e.printStackTrace();
                  }

              }

              
          /**
               * 抽取純文本信息
               * 
               * 
          @param inputHtml
               * 
          @return
               
          */
              
          public static String extractText(String inputHtml) throws Exception {
                  StringBuffer text 
          = new StringBuffer();

                  Parser parser 
          = Parser.createParser(new String(inputHtml.getBytes(),
                          
          "8859_1"), "8859-1");
                  
          // 遍歷所有的節(jié)點(diǎn)
                  NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
                      
          public boolean accept(Node node) {
                          
          return true;
                      }
                  });
                  Node node 
          = nodes.elementAt(0);
                  text.append(
          new String(node.toPlainTextString().getBytes("8859_1")));
                  
          return text.toString();
              }

              
          /**
               * 讀取文件的方式來(lái)分析內(nèi)容. filePath也可以是一個(gè)Url.
               * 
               * 
          @param resource
               *            文件/Url
               
          */
              
          public static void test5(String resource) throws Exception {
                  Parser myParser 
          = new Parser(resource);

                  
          // 設(shè)置編碼
                  myParser.setEncoding("GBK");
                  String filterStr 
          = "table";
                  NodeFilter filter 
          = new TagNameFilter(filterStr);
                  NodeList nodeList 
          = myParser.extractAllNodesThatMatch(filter);
                  TableTag tabletag 
          = (TableTag) nodeList.elementAt(11);
                      
                      System.out.println(tabletag.toHtml());
                      
                      System.out.println(
          "==============");

              }

              
          /*
               * public static void main(String[] args) { TestYahoo testYahoo = new
               * TestYahoo(); testYahoo.testHtml(); }
               
          */
              
          public static void main(String[] args) throws Exception {
                  test5(
          "http://sports.yahoo.com/nba/scoreboard");
              }
          }
          posted on 2005-12-21 22:35 老妖 閱讀(24413) 評(píng)論(30)  編輯  收藏 所屬分類(lèi): java心得

          FeedBack:
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2005-12-23 09:05 | 1
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2005-12-24 12:04 | 111
          好文,繼續(xù)貫注,快發(fā)(二)吧.  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2006-05-18 17:16 | 第六世紀(jì)
          <link href='/c06/css.css' text='text/css' rel='stylesheet' />

          如何解析出/c06/css.css 呢?

          htmlparser不識(shí)別link 和script標(biāo)簽  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2006-06-06 20:58 | xvg
          can I make friends with you  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2006-06-06 20:59 | xvg
          my msn: thron_xv@msn.com
          QQ: 59346219  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2006-07-04 17:50 | 斯瓦伊安
          Proxy要怎麼設(shè) 連線(xiàn)無(wú)法連出  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2006-07-20 16:06 | 斯瓦伊安
          ConnectionManager cm = new ConnectionManager();
          cm.setProxyHost("XXX.XXX.XXX.XXX");
          cm.setProxyPort(8080);
            回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2006-09-05 10:08 | max
          htmlparser可以抓取動(dòng)態(tài)生成的鏈接么?比如由表單所臨時(shí)返回的響應(yīng)等。  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-01-24 11:18 | hunhun
          你們這些人真無(wú)聊,就不回自己寫(xiě)點(diǎn)東西 。就知道弄?jiǎng)e人的東西轉(zhuǎn)載
          百度一搜全一樣 都來(lái)自一個(gè)地方 。  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-05-09 22:59 | 監(jiān)聽(tīng)器
          誰(shuí)規(guī)定不能轉(zhuǎn)的?  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-08-25 16:12 | 內(nèi)容被禁止顯示
          頂一個(gè),不錯(cuò)  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-08-25 16:13 | 監(jiān)聽(tīng)器
          不錯(cuò)不錯(cuò)  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-09-19 14:19 | 新開(kāi)征途私服
          轉(zhuǎn)載文章可以讓更多的人看到  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-09-19 14:19 | 征途私服
          轉(zhuǎn)載無(wú)罪,有罪的是剽竊和抄襲的  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-11-05 13:51 | 內(nèi)容被禁止顯示
          好東西  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-11-05 13:52 | 監(jiān)聽(tīng)器
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-11-29 16:34 | 11xp
          gdfgdfgdfgdfg  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-11-30 09:52 | 11sss
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-11-30 09:53 | 44xp
          fzsdvcxzv  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2007-12-25 13:48 | gengqian
          qianqian1216@gmail.com
          我想學(xué)學(xué)給我發(fā)一個(gè)完整的小例子好嗎,謝了老兄  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)[未登錄](méi)
          2008-01-22 17:28 | hehe
          詳細(xì)點(diǎn)好嗎  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2008-01-28 18:21 | tarzan
          能詳細(xì)點(diǎn)就更好了  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2008-02-21 10:06 | zhade
          寫(xiě)的真好!  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2009-06-16 12:57 | springbird
          高手你好,可否發(fā)一個(gè)用htmlparser解析網(wǎng)頁(yè)的小例子,要求提取網(wǎng)頁(yè)內(nèi)的標(biāo)題,作者,正文,提取的網(wǎng)頁(yè)是純文本的,謝謝,我的郵箱是springbird2006@126.com  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)[未登錄](méi)
          2009-10-09 14:09 | 三少
          http://www.gbsou.com
          可以交換鏈接不 兄弟 我也是做j2ee的  回復(fù)  更多評(píng)論
            
          # re: 利用htmlparser抓取網(wǎng)頁(yè)內(nèi)容(一)
          2012-01-04 17:02 | S771880049
          都一樣  回復(fù)  更多評(píng)論
            

          <2025年5月>
          27282930123
          45678910
          11121314151617
          18192021222324
          25262728293031
          1234567

          常用鏈接

          隨筆分類(lèi)(48)

          隨筆檔案(104)

          好友鏈接

          我的豆瓣

          積分與排名

          • 積分 - 221141
          • 排名 - 257

          最新評(píng)論

          閱讀排行榜

          主站蜘蛛池模板: 黎城县| 阳东县| 五大连池市| 舒兰市| 且末县| 景德镇市| 舞钢市| 洛南县| 平南县| 自贡市| 崇左市| 莱西市| 凤城市| 峨边| 云安县| 昌黎县| 高雄市| 德安县| 武清区| 金坛市| 民勤县| 定南县| 兴宁市| 绥阳县| 林甸县| 青田县| 台南县| 大埔区| 尚志市| 讷河市| 宁化县| 阳春市| 九龙坡区| 仁化县| 南江县| 保靖县| 塔河县| 鄂托克旗| 肥乡县| 皋兰县| 潜江市|