在线三级中文,中文字幕免费一区二区三区,亚洲色图第三页

[原創]用HttpUrlConnection抓取網頁內容

Posted on 2009-09-05 10:58 60 閱讀(5727) 評論(1) 編輯收藏所屬分類: JAVA筆記

由于項目需求，需要采集一些網站的內容。在JAVA領域中，已經存在很多良好的框架用于該應用，如httpclient，webharvest還有更多強大的框架。但由于本身項目比較單純，且為了良好的自我控制，就決定直接用JDK中的HttpUrlConnection類來抓取網頁內容。并不是說那些框架不好，而只是不適用本項目。

說明：本博的一切內容均可轉載，但必須注意出處。http://www.lelelog.com(樂樂日志)

一、HttpUrlConnection連接之模擬瀏覽器

在諸多的網站中，特別是大型的網站，設置了必須是瀏覽器的請求才會回應。之所以這樣設置，就是為了防止我們這種項目給他產生無意義的請求（往往這種請求都是大批量，對其服務器產生負荷）。那為了解決這個問題，我們需要在http請求中，添加屬性。

HttpURLConnection urlConn;

urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

這樣就設置好了，你可以隨意設置你的操作系統值，瀏覽器值，版本，只要正確就OK了。這樣就可以正常有效地訪問其網站了。他可不知道你是不是瀏覽器。你即使是條狗，他也不知道。

二、完整的設置HttpUrlConnection的屬性值

HttpURLConnection urlConn;

urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");
        urlConn.setRequestProperty("Accept",
                "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-powerpoint, application/vnd.ms-excel, application/msword, */*");
        urlConn.setRequestProperty("Accept-Language", "zh-cn");
        urlConn.setRequestProperty("UA-CPU", "x86");
        urlConn.setRequestProperty("Accept-Encoding", "gzip");//為什么沒有deflate呢
        urlConn.setRequestProperty("Content-type", "text/html");
        urlConn.setRequestProperty("Connection", "close"); //keep-Alive，有什么用呢，你不是在訪問網站，你是在采集。嘿嘿。減輕別人的壓力，也是減輕自己。

        urlConn.setUseCaches(false);//不要用cache，用了也沒有什么用，因為我們不會經常對一個鏈接頻繁訪問。（針對程序）
        urlConn.setConnectTimeout(6 * 1000);
        urlConn.setReadTimeout(6*1000);
        urlConn.setDoOutput(true);
        urlConn.setDoInput(true);

有什么疑問的話，可以查看JDK的API文檔，這個可以實時看。至于為什么要設置 gzip，而又不設置deflate，原因如下，有些網站他不管你能接受什么壓縮格式，統統也會壓縮網頁內容傳給你。當然IE，FF能處理好這些內容。所以我們通過瀏覽器查看的時候完全正常。一般gzip的壓縮可以將一個33K的文件壓縮成7K，這樣會節約不少帶寬，但服務器的負荷并沒有減輕，因為他要壓縮文件呀。至于為什么不用deflate，是由于絕大多數網站的壓縮方式是用gzip，而在有些網站中，明明是用的gzip卻返回deflate的壓縮標識。這有什么意義呢，所以干脆就告訴服務器，我不接受deflate，因為他太丑了，又長，哪像gzip這么潮呀。呵呵，對于瀏覽量大的靜態網頁服務器，這樣做很是必要。100M的獨享服務器，他也只有100M呀。

三、開始采集某個網頁的內容

該方法就是傳入一個HttpUrlConnection的鏈接，和該文件的字符集編碼，就可以返回其網頁內容了。

public static String getContentFromIn(HttpURLConnection urlConn, String charset) {
        BufferedReader br = null;
        StringBuilder content = new StringBuilder(200);
        InputStream in = null;
        try {
            if(null == urlConn){
                return "";
            }
            if (StringTools.isNotEmpty(urlConn.getContentEncoding())) {
                String encode = urlConn.getContentEncoding().toLowerCase();
                if (StringTools.isNotEmpty(encode) && encode.indexOf("gzip") >= 0) {
                    in = new GZIPInputStream(urlConn.getInputStream());
                }
            }

            if (null == in) {
                in = urlConn.getInputStream();
            }
            if (null != in) {
                br = new BufferedReader(new InputStreamReader(in, charset));
                String line = "";
                while ((line = br.readLine()) != null) {
                    content.append(line);
                }
            }

        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (null != in) {
                try {
                    in.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                in = null;
            }
            if (null != br) {
                try {
                    br.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                in = null;
            }
        }
        return content.toString();
    }

至此一個簡單的采集工具類誕生了，他的優美在于，代碼少，不用引入任何包。純JDK，一樣能干許多事。有時不希望把本來簡單的事情搞得復雜化。雖然不要創造重復的輪子，但我們不能純拿來主義，就像這樣一個簡單的功能，不需要搞得太復雜。只要不DRY就可以了，這樣自己也能一點點地進步。

以上有什么錯誤，還請包涵。。。。。。該文章來自:樂樂日志(記下每個快樂的日子)。

# re: [原創]用HttpUrlConnection抓取網頁內容 回復 更多評論

2015-03-06 23:31 by 覆蓋

好

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: [原創]用HttpUrlConnection抓取網頁內容 Java性能優化 Java Map 集合類簡介 Java的內存泄漏在 JSF 的 Managed Bean 中獲得request session對象 Something About Final [導入]淺談JNI技術在嵌入式軟件開發中的應用

小心別讓日子把你給混了

[原創]用HttpUrlConnection抓取網頁內容

評論

# re: [原創]用HttpUrlConnection抓取網頁內容 回復 更多評論

日歷

我參與的團隊

隨筆分類(13)

隨筆檔案(26)

文章分類

文章檔案(1)

我的地盤

搜索

最新評論

閱讀排行榜

評論排行榜

小心別讓日子把你給混了

[原創]用HttpUrlConnection抓取網頁內容

評論

# re: [原創]用HttpUrlConnection抓取網頁內容 回復 更多評論

日歷

我參與的團隊

隨筆分類(13)

隨筆檔案(26)

文章分類

文章檔案(1)

我的地盤

搜索

最新評論

閱讀排行榜

評論排行榜

# re: [原創]用HttpUrlConnection抓取網頁內容回復更多評論