Senior

          RESEARCH behind THINK beside CODE beyond

          #

          支持AJAX的網頁抓取工具的原型系統

          之前發布的Krabber已經可以抓取執行了Javascript之后的網頁。

          比如新浪博客的評論,其內容是在網頁加載后通過JavaScript顯示出來的。這樣普通的抓取工具加不能得到評論信息。Krabber 0.0.0.2已經可以做到抓取一定會執行的JavaScript網頁,返回JavaScript執行之后的帶有所需要信息的網頁HTML。

          現在的問題是,網頁上很多內容是需要用戶交互一下才能顯示出結果的。比如基于JavaScript的評論結果翻頁。直接使用Krabber 0.0.0.2只能得到第一頁的結果。要想看到后面的評論,必須點擊翻頁,等待JavaScript執行之后才能看到結果。因此,這一版本的主要目標是實現一個可以模擬用戶動作,觸發一些網頁上的事件,如點擊下一頁,之后抓取JavaScript的執行結果。

          這一版本的Krabber 0.0.0.3 Preview已經實現了執行網頁上的AJAX腳本。Krabber 0.0.0.3 Pre通過提供一個腳本執行機制,允許信息抽取工具提供需要執行的內容,并交由Krabber進行執行,然后由Krabber返回執行之后的結果。

          當然目前的Preview還不能返回執行后的信息,但是已經能夠展示執行AJAX的過程。大家感興趣的話可以看一下這個原型系統。

          請使用OSS下載點下載:http://gforge.oss.org.cn/frs/?group_id=199

          Krabber 0.0.0.3 Preview由pinlin:senior編寫,pinlin168@tom.com

          posted @ 2009-12-12 10:13 Senior 閱讀(1833) | 評論 (0)編輯 收藏

          僅列出標題
          共10頁: 上一頁 1 2 3 4 5 6 7 8 9 下一頁 Last 

          My Links

          Blog Stats

          常用鏈接

          留言簿(1)

          隨筆分類(9)

          隨筆檔案(10)

          最新隨筆

          搜索

          積分與排名

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 新乡市| 保康县| 钦州市| 讷河市| 威宁| 大渡口区| 剑阁县| 威信县| 桃源县| 阳原县| 无锡市| 灵石县| 哈尔滨市| 临沭县| 厦门市| 河南省| 苏尼特右旗| 华安县| 顺平县| 特克斯县| 和硕县| 共和县| 盐亭县| 霍邱县| 班玛县| 登封市| 习水县| 徐州市| 蒙自县| 承德市| 青阳县| 澄城县| 江山市| 衡东县| 留坝县| 民乐县| 逊克县| 闻喜县| 鸡泽县| 绥中县| 九台市|