最近一直試圖用httpClient做點(diǎn)自動(dòng)化的工作
實(shí)際上登錄一個(gè)網(wǎng)站,訪(fǎng)問(wèn)某個(gè)特點(diǎn)的頁(yè)面,發(fā)表一篇文章,上傳一些文件,并不是一個(gè)簡(jiǎn)單的事情。
HttpClient的基本使用因?yàn)榘l(fā)布的代碼中帶有幾個(gè)例子,應(yīng)該算是不難掌握的事情。下面我說(shuō)下我遇到的幾個(gè)問(wèn)題。
1,登陸驗(yàn)證圖片問(wèn)題
首先登錄的時(shí)候網(wǎng)站如果不想你對(duì)它編程的化通常都會(huì)設(shè)計(jì)一個(gè)驗(yàn)證圖片,這個(gè)技術(shù)現(xiàn)在已經(jīng)如此的易于使用,以至于隨便到哪里都能找到代碼來(lái)直接使用。對(duì)于驗(yàn)證圖片的,現(xiàn)在還苦于無(wú)計(jì)可施狀態(tài)。
2,笨蛋Cookie問(wèn)題:
如果你要發(fā)送多個(gè)cookie,其實(shí)可以這樣發(fā)的:
state.addCookies?(new?Cookie[]{
????????????new?Cookie("?www.aaa.com","popped","yes","/",new?Date(2006,12,8),false),?
????????????new?Cookie("?www.aaa.com","rtime","2","/",new?Date(2006,12,8),false),?
????????????new?Cookie("?www.aaa.com","ltime","1149940477953","/",new?Date(2006,12,8),false),?
????????????new?Cookie("?www.aaa.com?","cnzz02","1","/",new?Date(2006,12,8),false),
????????});
但是截包就會(huì)發(fā)現(xiàn),httpclient會(huì)在header里構(gòu)件多個(gè)cookie項(xiàng),每一項(xiàng)只含有一個(gè)cookie,這同IE是不一樣的。IE和Firefox會(huì)把所有的cookie打包成一個(gè),然后在這個(gè)cookie里按照分號(hào)把每一項(xiàng)隔開(kāi),中間有個(gè)空格。
所以如果用httpclient,還想讓cookie正常的話(huà),請(qǐng)使用下面這種形式:
String?cookies?=?"yes;?rtime=2;?ltime=1149940477953;?cnzz02=1";?
state.addCookie(new?Cookie("blog.aaa.com","poped",cookies,"/",new?Date(2006,12,8),false));?
3,編碼問(wèn)題:
httpClient處理編碼并不像IE或FireFox那么智能,httpclient記不住上次會(huì)話(huà)的編碼,這樣如果默認(rèn)不是ISO-8859-1的話(huà),那都要在Content-Type里邊指定,其實(shí)指定的方法也很簡(jiǎn)單。
本來(lái)要提交的是form,默認(rèn)按照application/x-www-form-urlencoded來(lái)發(fā)送,在IE里邊發(fā)送的話(huà)截包可以看到,報(bào)文中也就指定了這樣一個(gè)Content-Type,但是人家IE已經(jīng)把報(bào)文的內(nèi)容按照會(huì)話(huà)的編碼轉(zhuǎn)換好了。而httpclient不行,它并不知道怎么轉(zhuǎn)化,那么你沒(méi)有設(shè)定轉(zhuǎn)換的charset的話(huà),它就按照Charset=ISO-8859-1轉(zhuǎn)換了。這一點(diǎn)上Httpclient應(yīng)該再改進(jìn)一下,因?yàn)橛涀erver發(fā)過(guò)來(lái)的頁(yè)面編碼是件很簡(jiǎn)單的事情。只要將類(lèi)似于"Content-Type: text/html; charset=utf-8"這樣的頭保存一下?tīng)顟B(tài)就可以了。
為了彌補(bǔ)httpclient這一點(diǎn)的傻瓜表現(xiàn),我們只好每次都手工設(shè)置一下嘍:
postMethod.addRequestHeader("Content-Type","application/x-www-form-urlencoded; charset=UTF-8");
HttpClient的基本使用因?yàn)榘l(fā)布的代碼中帶有幾個(gè)例子,應(yīng)該算是不難掌握的事情。下面我說(shuō)下我遇到的幾個(gè)問(wèn)題。
1,登陸驗(yàn)證圖片問(wèn)題
首先登錄的時(shí)候網(wǎng)站如果不想你對(duì)它編程的
2,笨蛋Cookie問(wèn)題:
如果你要發(fā)送多個(gè)cookie,其實(shí)可以這樣發(fā)的:






但是截包就會(huì)發(fā)現(xiàn),httpclient會(huì)在header里構(gòu)件多
所以如果用httpclient,還想讓cookie正常的話(huà)


3,編碼問(wèn)題:
httpClient處理編碼并不像IE或FireFox那么智能
本來(lái)要提交的是form,默認(rèn)按照application/x
為了彌補(bǔ)httpclient這一點(diǎn)的傻瓜表現(xiàn),我們只好每次都手
postMethod.addRequestHeader("Content-Type","application/x
4,上傳文件問(wèn)題:
?
httpClient并不能很好的模擬文件上傳。
首先是對(duì)于文件類(lèi)型的識(shí)別,IE可以做到按照文件類(lèi)型分別選擇不同的Content-type進(jìn)行發(fā)送,而httpclient就需要我們自己設(shè)定,這樣如果對(duì)一個(gè)目錄進(jìn)行自動(dòng)化上傳的話(huà)就必須知道該目錄下所有文件的類(lèi)型,以及對(duì)應(yīng)的charset,然后再設(shè)置FilePart的時(shí)候逐一判斷文件擴(kuò)展名,以賦給不同的content-type和charset,對(duì)于一些網(wǎng)頁(yè)編碼是gb2312,而另外一些網(wǎng)頁(yè)編碼是utf-8則會(huì)更加麻煩。
其次是如果發(fā)送的multiPartPost報(bào)文中除了FilePart以外,還需要一些form中的其他input的信息,又是一件很麻煩的事情。剛開(kāi)始的時(shí)候我以為像一般的PostMethod一樣,使用PostMethod.addParameters()就可以了,后來(lái)才發(fā)現(xiàn)這個(gè) MultiPartPost跟那個(gè)Post根本就是兩個(gè)不同的Post。雖然從網(wǎng)頁(yè)上看都是Form,且只是在input的類(lèi)型上 MultiPartPost包含一個(gè)file類(lèi)型的input,其他完全一樣,但實(shí)際上在httpClient中是完全不同的兩套方案。對(duì)于MultiPartPost而言,不能用addParameters(),而要使用
someMultiPartPost.setRequestEntity(
?????new?MultipartRequestEntity(?
?????????new?Part[]?{?art1,part2,part3,part4},?
????????????????????someMultiPartPost.getParams())
);
這種形式。對(duì)于要上傳的File,那么這些part就是FilePart對(duì)象,如果是跟隨form的其他input,那么這些part就是 StringPart。這樣發(fā)出去的報(bào)文才是:Content-Disposition: form-data; name="newFolderName"這種形式。
總結(jié)起來(lái),其實(shí)也不能怪人家HttpClient,天下間哪有那么多容易做到的事情,尤其是面對(duì)Http這樣一個(gè)說(shuō)來(lái)不算簡(jiǎn)單的協(xié)議。
實(shí)際上像這種開(kāi)源已久的東西,已經(jīng)有了不少的文檔,雖然有時(shí)候不太好找,但很多問(wèn)題還是能夠猜或者試出來(lái),畢竟相對(duì)比較成熟,而且遵循這rfc來(lái)做的。就像我在水母上問(wèn)問(wèn)題,有人說(shuō)的那樣,世界上有什么能模擬的像IE一樣呢,也不能拿IE的標(biāo)準(zhǔn)要求HttpClient。
我現(xiàn)在的感覺(jué)是要想用好HttpClient,或者類(lèi)似的別的什么工具(其他我就不知道了,有知道類(lèi)似工具的麻煩告訴我一聲),其實(shí)還是要把協(xié)議吃透,這樣一旦遇到什么問(wèn)題,才知道問(wèn)題出在哪里,否則就只有郁悶的份兒了。
昨天去Apache的網(wǎng)站,看到一個(gè)新的Project叫做HttpComponent從common里邊脫離出來(lái),包含了HttpCore, HttpClient,HttpAsync,HttpNIO,HttpCookie,HttpConn,看不出到底想做成什么樣子,不過(guò)HttpCore 4.0 alpha2已經(jīng)發(fā)布了,以后HttpClient用起來(lái)可能又有新的變化了。
一周的時(shí)間,用的不是很多,有說(shuō)得不妥的地方,還請(qǐng)大家指正。
首先是對(duì)于文件類(lèi)型
其次是如果發(fā)送的multiPartPost報(bào)文中除了FilePart以外,還需要一些form中的其他input的信息,又是一件很麻煩的事情。剛開(kāi)始的時(shí)候我以為像一般的PostMethod一樣,使用PostMethod.addParameters()就可以了,后來(lái)才發(fā)現(xiàn)這個(gè) MultiPartPost跟那個(gè)Post根本就是兩個(gè)不同的Post。雖然從網(wǎng)頁(yè)上看都是Form,且只是在input的類(lèi)型上 MultiPartPost包含一個(gè)file類(lèi)型的input,其他完全一樣,但實(shí)際上在httpClient中是完全不同的兩套方案。對(duì)于MultiPartPost而言,不能用addParameters(),而要使用





這種形式。對(duì)于要上傳的File,那么這些part就是FilePart對(duì)象,如果是跟隨form的其他input,那么這些part就是 StringPart。這樣發(fā)出去的報(bào)文才是:Content-Disposition: form-data; name="newFolderName"這種形式。
總結(jié)起來(lái),其實(shí)也不能怪人家HttpClient,天下間哪有那么多容易做到的事情,尤其是面對(duì)Http這樣一個(gè)說(shuō)來(lái)不算簡(jiǎn)單的協(xié)議。
實(shí)際上像這種開(kāi)源已久的東西,已經(jīng)有了不少的文檔,雖然有時(shí)候不太好找,但很多問(wèn)題還是能夠猜或者試出來(lái),畢竟相對(duì)比較成熟,而且遵循這rfc來(lái)做的。就像我在水母上問(wèn)問(wèn)題,有人說(shuō)的那樣,世界上有什么能模擬的像IE一樣呢,也不能拿IE的標(biāo)準(zhǔn)要求HttpClient。
我現(xiàn)在的感覺(jué)是要想用好HttpClient,或者類(lèi)似的別的什么工具(其他我就不知道了,有知道類(lèi)似工具的麻煩告訴我一聲),其實(shí)還是要把協(xié)議吃透,這樣一旦遇到什么問(wèn)題,才知道問(wèn)題出在哪里,否則就只有郁悶的份兒了。
昨天去Apache的網(wǎng)站,看到一個(gè)新的Project叫做HttpComponent從common里邊脫離出來(lái),包含了HttpCore, HttpClient,HttpAsync,HttpNIO,HttpCookie,HttpConn,看不出到底想做成什么樣子,不過(guò)HttpCore 4.0 alpha2已經(jīng)發(fā)布了,以后HttpClient用起來(lái)可能又有新的變化了。
一周的時(shí)間,用的不是很多,有說(shuō)得不妥的地方,還請(qǐng)大家指正。