zhyiwww
          用平實的筆,記錄編程路上的點點滴滴………
          posts - 536,comments - 394,trackbacks - 0

          在用wget抓取數據的時候,有的時候需要用戶登錄才能進行。這種情況下就需要時用cookie.
          先看下面的代碼:
           
          wget --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies -O output/login.html --post-data "username=NNNNNNNNNNN&password=MMMMMMMMMMM" http://www.xxxxxxxxxxxxxx.org/login
           
            wget --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies -O output/directory-list.html "http://www.xxxxxxxxxxxxxxx.org/list?category=resturants&page=1"
           
          第一個操作,就是先獲得一個cookie,用來登陸并保存此session,然后在后面的抓數據的過程中使用此session和cookie.
          注意:
          http://www.xxxxxxxxxxxxxx.org/login要換成對應的登陸頁面的url
          --post-data "username=NNNNNNNNNNN&password=MMMMMMMMMMM"  post數據里面的參數要根據登陸頁面里面對應的參數設定。

          第二個操作,就是用上面的cookie去驗證用戶,并取得一個有效的連接,進而去取得數據。
          --load-cookies 就是載入你上一個操作所取得的cookie.

          在抓取數據的時候,我自己用了一個腳本,如下,以供參考:

          get --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies -O login.html --post-data "username=xxxxxxxxxx&password=11111111111111111" http://www.mmmmmmmmmmmmmmmmmm.mmmmmmmmm/login
           
           
           
            for i in {1..89}
            do
                for j in {1..20}
                do
                    echo i=$i -- j=$j
           
            echo "wget --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies  -O $i-$j.html 'http://www.ccccccccccccccc.ccccccccccc/directory/resturant/list?keyword=&class=$i&page=$j'"
           
            wget --no-dns-cache --no-cache --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies  -O $i-$j.html "http://www.qqqqqqqqq.xxxxxxxxx/directory/bar/list?keyword=&class=$i&page=$j"
           
                done









          |----------------------------------------------------------------------------------------|
                                     版權聲明  版權所有 @zhyiwww
                      引用請注明來源 http://www.aygfsteel.com/zhyiwww   
          |----------------------------------------------------------------------------------------|
          posted on 2009-10-27 18:20 zhyiwww 閱讀(3988) 評論(0)  編輯  收藏 所屬分類: linux
          主站蜘蛛池模板: 弥渡县| 清苑县| 筠连县| 乌什县| 西平县| 舒城县| 逊克县| 卢氏县| 松溪县| 临邑县| 陆河县| 卫辉市| 峡江县| 普兰店市| 保康县| 涞源县| 托克逊县| 邯郸县| 康乐县| 平南县| 安国市| 昆明市| 张家港市| 昌平区| 修武县| 潞西市| 高青县| 龙胜| 抚松县| 三亚市| 湘西| 宣城市| 荥阳市| 汉沽区| 阿拉善左旗| 区。| 汉中市| 宽城| 沾益县| 织金县| 平昌县|