狂淘

www.kuangtao.net

:: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理 ::

6 隨筆 :: 185 文章 :: 68 評(píng)論 :: 0 Trackbacks

手把手教你怎么寫織夢(mèng)5.5采集規(guī)則

今天給大家講一講怎么寫織夢(mèng)5.3的采集規(guī)則教程!

首先我們打開織夢(mèng)后臺(tái)點(diǎn)擊采集——采集節(jié)點(diǎn)管理——增加新節(jié)點(diǎn)

這里我們以采集普通文章為例，我們選擇普通文章，然后確定

我們進(jìn)入了采集的設(shè)置頁面，填寫節(jié)點(diǎn)名稱，就是給這個(gè)新節(jié)點(diǎn)取個(gè)名字，這里你可以任意填寫。

然后打開你想要采集的文章列表頁，這里我們以織夢(mèng)官網(wǎng)為例http://www.dedecms.com/web-manage/jianzhanxinde/ 打開這個(gè)頁面，右鍵——查看源文件

找到目標(biāo)頁面編碼，就在charset后面

頁面基本信息其他的一般就不用管了，填完了如圖

現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則

看看文章列表第一頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_1.html

對(duì)比第二頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_2.html

我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣，其他的都一樣，所以我們可以這樣寫

http://www.dedecms.com/web-manage/jianzhanxinde/list_49_(*).html

就是把1換成了(*) 因?yàn)檫@里只有2頁，所以我們就填從1到2 每頁遞增當(dāng)然是1了，2-1...是等于1吧

這里我們就填寫完了

可能大家采集的有些列表沒有規(guī)則，那就只有手工指定列表網(wǎng)址了，如圖

每行寫一個(gè)頁面地址

列表規(guī)則寫完了，我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁

右鍵查看源文件找到區(qū)域開始的HTML，就是找文章列表開始的標(biāo)志。

我們很容易的找到了如圖中的“新聞列表” 。從這里開始，后面就是文章列表里

我們?cè)僬椅恼铝斜斫Y(jié)束的HTML

就是這個(gè)了，一個(gè)很容易找到的標(biāo)志

如果鏈接中含有圖片：

不處理采集為縮略圖這里根據(jù)自己的需要選擇

對(duì)區(qū)域網(wǎng)址進(jìn)行再次篩選： (使用正則表達(dá)式)	必須包含： (優(yōu)先級(jí)高于后者)
	不能包含：

打開源文件，我們可以很清楚的看到，文章鏈接都是以.html結(jié)束的

所以，我們?cè)诒仨毎竺嫣?html 如果遇到有些列表很麻煩，還可以填寫后面的不能包含

我們點(diǎn)擊保存設(shè)置進(jìn)入下一步，可以看到我們獲得的文章網(wǎng)址

最新電影

看到這些就是對(duì)的了，我們保存信息進(jìn)入下一步設(shè)置內(nèi)容字段獲取規(guī)則

我們看看文章有沒有分頁，隨便進(jìn)入一篇文章看看。。我們看到這里的文章沒有分頁

所以這里的我們就默認(rèn)了

我們現(xiàn)在來找文章標(biāo)題等等隨便進(jìn)入一篇文章，右鍵查看源文件

看看這些

依照源碼填寫

我們?cè)賮硖顚懳恼聝?nèi)容的開始，結(jié)束

和上面的一樣，找到開始和結(jié)束標(biāo)志

開始：

結(jié)束：

你想過濾文章中的什么內(nèi)容就到過濾規(guī)則里寫吧，比如要過濾文章中的圖片

選擇常用規(guī)則

再勾選IMG 然后確定

這樣我們就把正文中的圖片過濾了

設(shè)置完畢后點(diǎn)保存設(shè)置并預(yù)覽

這樣一個(gè)采集規(guī)則就寫好了，很簡(jiǎn)單吧有些網(wǎng)站很難寫，可要多下點(diǎn)功夫了哦

我們點(diǎn)保存并開始采集——開始采集網(wǎng)頁一會(huì)的功夫就采集完了

我們看看我們采集到的文章

看來是成功了，我們導(dǎo)出數(shù)據(jù)吧

完成了，更新一下文檔吧，可以看到采集到了文章咯

www.kuangtao.net 狂淘購(gòu)物網(wǎng)

posted on 2010-02-15 00:38 狂淘閱讀(2129) 評(píng)論(0) 編輯收藏所屬分類: SEO

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 影響網(wǎng)站排名的49因素如何設(shè)置更好，更方便的首選域？ .htaccess使用指南 robots.txt用法和seo作用-Googlebot/Baiduspider 如何查看網(wǎng)站被百度抓取的情況？日志中的HTTP狀態(tài)碼都代表什么？如何使用標(biāo)簽阻止網(wǎng)頁被收錄？如何使用robots不讓百度和google收錄網(wǎng)站地圖提交如何生成標(biāo)準(zhǔn)的網(wǎng)站地圖

狂淘

公告

留言簿(1)

隨筆分類(5)

隨筆檔案(6)

文章分類(181)

文章檔案(183)

相冊(cè)

QQ客服

博客

狂淘網(wǎng)

最新隨筆

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜