美女圖片爬蟲(chóng)程序很簡(jiǎn)單,就是從目標(biāo)網(wǎng)站上將一些美女圖片抓取下來(lái),并按文件夾的方式歸類(lèi)存放。
現(xiàn)在以 http://www.36mn.com/網(wǎng)站為例,將論壇上面的一個(gè)個(gè)圖片抓取下來(lái)慢慢欣賞。
用技術(shù)創(chuàng)造快感!!!! 嘿嘿
下載資源:
圖片抓取代碼.zip 網(wǎng)絡(luò)爬蟲(chóng)原理與實(shí)戰(zhàn)PPT.zip
主要技術(shù):
Jsoup、HttpClient.
配置說(shuō)明:
config.properties
#保存目錄
save.dir=D:/GIRL
#網(wǎng)站根路徑#
url.base=http://www.36mn.com/
#URL訪(fǎng)問(wèn)模板
url.template=http://www.36mn.com/forum-62-#page#.html
#開(kāi)始PAGE 替換url.template中page參數(shù)#
page.start=1
#結(jié)束PAGE 替換url.template中page參數(shù)#
page.end=2
#線(xiàn)程池大小,并發(fā)抓取圖片的最大線(xiàn)程數(shù)#
thread.pool.size=50
配置中的page.start 和 page.end 指定了抓取論壇開(kāi)始頁(yè)到結(jié)束頁(yè),如果想抓取整個(gè)論壇的就page.start=1,page.end=100吧。
配置目錄save.dir 默認(rèn)會(huì)創(chuàng)建一個(gè)D:/GIRL的目錄,用戶(hù)保存抓取圖片。圖片保存方式:D:/GIRL/頁(yè)號(hào)/帖子名/圖片名
抓取思路:
1.獲取論壇中的每個(gè)帖子標(biāo)題和連接。
2.請(qǐng)求帖子連接返回帖子內(nèi)容。
3.分析獲取圖片的URL。
4.定位URL下載圖片到本地。
論壇帖子列表 http://www.36mn.com/forum-62-1.html
其中一個(gè)帖子內(nèi)容 http://www.36mn.com/thread-22672-1-2.htmll
抓取結(jié)果