這里我們以采集普通文章為例,我們選擇普通文章,然后確定
我們進(jìn)入了采集的設(shè)置頁面,填寫節(jié)點(diǎn)名稱,就是給這個(gè)新節(jié)點(diǎn)取個(gè)名字,這里你可以任意填寫。
然后打開你想要采集的文章列表頁,這里我們以織夢(mèng)官網(wǎng)為例http://www.dedecms.com/web-manage/jianzhanxinde/
找到目標(biāo)頁面編碼,就在charset后面
頁面基本信息其他的一般就不用管了,填完了如圖
現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則
看看文章列表第一頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_1.html
對(duì)比第二頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_2.html
我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣,其他的都一樣,所以我們可以這樣寫
http://www.dedecms.com/web-manage/jianzhanxinde/list_49_(*).html
就是把1換成了(*)
可能大家采集的有些列表沒有規(guī)則,那就只有手工指定列表網(wǎng)址了,如圖
每行寫一個(gè)頁面地址
列表規(guī)則寫完了,我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁
右鍵查看源文件
我們很容易的找到了如圖中的“新聞列表”
就是這個(gè)了,一個(gè)很容易找到的標(biāo)志
如果鏈接中含有圖片: |
不處理 采集為縮略圖 |
對(duì)區(qū)域網(wǎng)址進(jìn)行再次篩選: (使用正則表達(dá)式) |
必須包含: (優(yōu)先級(jí)高于后者) |
不能包含: |
打開源文件,我們可以很清楚的看到,文章鏈接都是以.html結(jié)束的
所以,我們?cè)诒仨毎竺嫣?html
我們點(diǎn)擊保存設(shè)置進(jìn)入下一步,可以看到我們獲得的文章網(wǎng)址
看到這些就是對(duì)的了,我們保存信息進(jìn)入下一步設(shè)置內(nèi)容字段獲取規(guī)則
我們看看文章有沒有分頁,隨便進(jìn)入一篇文章看看。。我們看到這里的文章沒有分頁
我們現(xiàn)在來找文章標(biāo)題等等
我們?cè)賮硖顚懳恼聝?nèi)容的開始,結(jié)束
和上面的一樣,找到開始和結(jié)束標(biāo)志
你想過濾文章中的什么內(nèi)容就到過濾規(guī)則里寫吧,比如要過濾文章中的圖片
這樣我們就把正文中的圖片過濾了
設(shè)置完畢后點(diǎn)保存設(shè)置并預(yù)覽
這樣一個(gè)采集規(guī)則就寫好了,很簡(jiǎn)單吧有些網(wǎng)站很難寫,可要多下點(diǎn)功夫了哦
我們點(diǎn)保存并開始采集——開始采集網(wǎng)頁
完成了,更新一下文檔吧,可以看到采集到了文章咯
www.kuangtao.net 狂淘購(gòu)物網(wǎng)