posts - 495,comments - 227,trackbacks - 0
          發(fā)現(xiàn)一個很不錯的模擬瀏覽器包htmlunit,它可以直接執(zhí)行訪問網(wǎng)站地址,并執(zhí)行相應(yīng)的JavaScript腳本;這個功能對于網(wǎng)站爬蟲有很大的幫助,一些網(wǎng)站使用了ajax,如果使用簡單的http訪問只能抓到原始的html源碼,但對于頁面內(nèi)執(zhí)行的ajax卻無法獲取;使用這個包后,可以將執(zhí)行ajax后的html源碼一并抓取下來。
          網(wǎng)站地址:http://htmlunit.sourceforge.net/
          該站點下邊還提到了幾個相類似的包:HtmlUnit is used as the underlying "browser" by different Open Source tools like Canoo WebTest, JWebUnit, WebDriver, JSFUnit, Celerity, ...


          canoo WebTest 看了一下,沒太明白是怎么用的,沒想太深入了解
          jwebunit 是用來做網(wǎng)站測試用的,它整合了JUnit,htmlunit,selenium 包框架;其主要功能是用做白盒測試和壓力測試。
          webDriver 后來改名為selenium,它整合了htmlunit,火狐瀏覽器,IE瀏覽器,opare瀏覽器驅(qū)動。如果使用htmlunitDriver,則是使用htmlunit包來訪問站點;如果使用FirefoxDriver則會直接將Firefox瀏覽器調(diào)出來,然后在瀏覽器上模擬輸入文字和其他鼠標(biāo)鍵盤事件。

          htmlunit包訪問網(wǎng)站后,獲取到html源碼后可以對源碼進(jìn)行修改;而jwebunit,selenium則暫時沒有發(fā)現(xiàn)修改的功能,只是用來做模擬用戶操作的功能。
          posted on 2012-01-12 14:11 SIMONE 閱讀(12616) 評論(2)  編輯  收藏 所屬分類: JAVA

          FeedBack:
          # re: java模擬瀏覽器包htmlunit,selenium
          2012-04-20 14:26 | 33
          朋友你好我現(xiàn)在是HtmlUnit運用者,我現(xiàn)在在項目爬去中遇見一個非常棘手的問題,就是分頁數(shù)據(jù)怎樣爬取,我現(xiàn)在真的不明白了,朋友可以的話加我QQ452276647 這個問題解決了非常非常的感謝了!!!!!  回復(fù)  更多評論
            
          # re: java模擬瀏覽器包htmlunit,selenium
          2014-12-02 17:24 | 馬堯
          朋友,你在用這個java模擬瀏覽器包htmlunit嘛!!我怎么那個網(wǎng)址打不開,能不能發(fā)給我一個,急需!!!萬分感激!!!601202648@qq.com  回復(fù)  更多評論
            
          主站蜘蛛池模板: 时尚| 定兴县| 潞城市| 蓬莱市| 呼图壁县| 新津县| 舞钢市| 滨州市| 宽甸| 石狮市| 合肥市| 肇源县| 白山市| 高雄县| 怀化市| 兰西县| 黄陵县| 怀远县| 南康市| 盐池县| 禹城市| 囊谦县| 阳信县| 资中县| 焉耆| 宿迁市| 马尔康县| 舟曲县| 交城县| 卢湾区| 嵊泗县| 舟山市| 铜鼓县| 永福县| 重庆市| 兴安县| 耒阳市| 淳安县| 阜新| 文昌市| 库伦旗|