狂淘

          www.kuangtao.net

             :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            6 隨筆 :: 185 文章 :: 68 評論 :: 0 Trackbacks
          今天給大家講一講怎么寫織夢5.3的采集規(guī)則教程!

            首先我們打開織夢后臺點擊 采集——采集節(jié)點管理——增加新節(jié)點

          這里我們以采集普通文章為例,我們選擇普通文章,然后確定

          我們進入了采集的設置頁面,填寫節(jié)點名稱,就是給這個新節(jié)點取個名字,這里你可以任意填寫。

           

          然后打開你想要采集的文章列表頁,這里我們以織夢官網(wǎng)為例http://www.dedecms.com/web-manage/jianzhanxinde/  打開這個頁面,右鍵——查看源文件

          找到目標頁面編碼,就在charset后面

          頁面基本信息其他的一般就不用管了,填完了如圖

           

          現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則

          看看文章列表第一頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_1.html

          對比第二頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_2.html

          我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣,其他的都一樣,所以我們可以這樣寫

          http://www.dedecms.com/web-manage/jianzhanxinde/list_49_(*).html

          就是把1換成了(*)  因為這里只有2頁,所以我們就填從1到2  每頁遞增當然是1了,2-1...是等于1吧

          這里我們就填寫完了

           

          可能大家采集的有些列表沒有規(guī)則,那就只有手工指定列表網(wǎng)址了,如圖

          每行寫一個頁面地址

           

          列表規(guī)則寫完了,我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁

          右鍵查看源文件  找到區(qū)域開始的HTML,就是找文章列表開始的標志。

          我們很容易的找到了如圖中的“新聞列表”  。從這里開始,后面就是文章列表里

          我們再找文章列表結(jié)束的HTML

          就是這個了,一個很容易找到的標志

           

          如果鏈接中含有圖片:

          不處理 采集為縮略圖      這里根據(jù)自己的需要選擇

           

           

          對區(qū)域網(wǎng)址進行再次篩選:
          (使用正則表達式)
          必須包含: (優(yōu)先級高于后者)
          不能包含:

           

          打開源文件,我們可以很清楚的看到,文章鏈接都是以.html結(jié)束的

          所以,我們在必須包含后面填.html  如果遇到有些列表很麻煩,還可以填寫后面的不能包含

          我們點擊保存設置進入下一步,可以看到我們獲得的文章網(wǎng)址

          最新電影

          看到這些就是對的了,我們保存信息進入下一步設置內(nèi)容字段獲取規(guī)則

          我們看看文章有沒有分頁,隨便進入一篇文章看看。。我們看到這里的文章沒有分頁

          所以這里的我們就默認了

           

          我們現(xiàn)在來找文章標題等等   隨便進入一篇文章,右鍵查看源文件

          看看這些

          依照源碼填寫

           

          我們再來填寫文章內(nèi)容的開始,結(jié)束

          和上面的一樣,找到開始和結(jié)束標志

          開始:

          結(jié)束:

           

           

          你想過濾文章中的什么內(nèi)容就到過濾規(guī)則里寫吧,比如要過濾文章中的圖片

          選擇常用規(guī)則

          再勾選IMG  然后確定

           

          這樣我們就把正文中的圖片過濾了

           

          設置完畢后點保存設置并預覽

          這樣一個采集規(guī)則就寫好了,很簡單吧有些網(wǎng)站很難寫,可要多下點功夫了哦

          我們點保存并開始采集——開始采集網(wǎng)頁  一會的功夫就采集完了

          我們看看我們采集到的文章

           

          看來是成功了,我們導出數(shù)據(jù)吧

          完成了,更新一下文檔吧,可以看到采集到了文章咯


          www.kuangtao.net  狂淘購物網(wǎng)

          posted on 2010-02-15 00:38 狂淘 閱讀(2123) 評論(0)  編輯  收藏 所屬分類: SEO
          主站蜘蛛池模板: 调兵山市| 铜山县| 资兴市| 南平市| 巴里| 同心县| 四子王旗| 北宁市| 灌云县| 宁波市| 本溪市| 吉木萨尔县| 佳木斯市| 额济纳旗| 双桥区| 宁阳县| 峨眉山市| 梁山县| 乐山市| 大洼县| 河南省| 波密县| 天津市| 梧州市| 桃园县| 抚松县| 明光市| 昌都县| 榆林市| 鲜城| 饶河县| 衡东县| 叙永县| 天等县| 东山县| 闻喜县| 云阳县| 丰城市| 锡林郭勒盟| 江阴市| 安顺市|