Java快速開發(fā)平臺

          www.fastunit.com

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            23 Posts :: 0 Stories :: 273 Comments :: 0 Trackbacks

          import java.io.BufferedReader;
          import java.io.InputStreamReader;
          import java.net.HttpURLConnection;
          import java.net.URL;

          public class URLUtil {

            
          public static String getHtml(String urlString) {
              
          try {
                StringBuffer html 
          = new StringBuffer();
                URL url 
          = new URL(urlString);
                HttpURLConnection conn 
          = (HttpURLConnection) url.openConnection();
                InputStreamReader isr 
          = new InputStreamReader(conn.getInputStream());
                BufferedReader br 
          = new BufferedReader(isr);
                String temp;
                
          while ((temp = br.readLine()) != null) {
                  html.append(temp).append(
          "\n");
                }
                br.close();
                isr.close();
                
          return html.toString();
              } 
          catch (Exception e) {
                e.printStackTrace();
                
          return null;
              }
            }

            
          public static void main(String[] args) {
              System.out.println(URLUtil.getHtml(
          "http://www.fastunit.com"));
            }
          }
          posted on 2008-03-26 12:22 FastUnit 閱讀(8746) 評論(7)  編輯  收藏 所屬分類: Java

          Feedback

          # 頂死你 2008-03-26 16:23 草包書生
          還是不錯,用sorckt類實(shí)現(xiàn)起來效果更好。
          不過用URL也不錯嘛。  回復(fù)  更多評論
            

          # re: 通過url地址抓取網(wǎng)頁html代碼 2008-03-26 17:52 隔葉黃鶯
          用 HttpURLConnection 比直接用 Socket 肯定要簡單多了,Socket 的話要按照 Http 協(xié)議來發(fā)送請求。  回復(fù)  更多評論
            

          # re: 通過url地址抓取網(wǎng)頁html代碼 2008-03-27 10:06 hejianhuacn
          使用wget的java實(shí)現(xiàn)會更好  回復(fù)  更多評論
            

          # re: 通過url地址抓取網(wǎng)頁html代碼 2008-03-27 21:52 leson
          URL src = new URL( "http://www.yahoo.com" );
          File dest = new File( "times.html" );
          FileUtils.copyURLToFile( src, dest );

          Apache Commons里面封裝成這樣了。  回復(fù)  更多評論
            

          # re: 通過url地址抓取網(wǎng)頁html代碼 2008-03-28 14:06 勉勉強(qiáng)強(qiáng)
          @leson

          確實(shí)是Apache Commons的包裝用得最簡便,呵呵  回復(fù)  更多評論
            

          # re: 通過url地址抓取網(wǎng)頁html代碼[未登錄] 2012-03-07 18:19 zt
          不知道樓主有沒有遇到過抓取到的html不完整的情況。我用類似上面的代碼抓網(wǎng)頁時有時會遇到得到的html不完整  回復(fù)  更多評論
            

          # re: 通過url地址抓取網(wǎng)頁html代碼[未登錄] 2012-09-09 02:01 L
          IOUtils.toString(URL u,Charsets encoding)  回復(fù)  更多評論
            

          主站蜘蛛池模板: 瓮安县| 志丹县| 海原县| 玉屏| 应城市| 繁昌县| 房产| 建水县| 奉贤区| 高陵县| 安塞县| 丹东市| 米易县| 四子王旗| 昆明市| 道孚县| 栾城县| 彭州市| 四川省| 织金县| 林州市| 马山县| 白山市| 丹东市| 穆棱市| 瑞安市| 定州市| 天祝| 松江区| 靖远县| 探索| 新宾| 昆明市| 清流县| 项城市| 顺义区| 克东县| 拉萨市| 武乡县| 舞阳县| 越西县|