狂淘

          www.kuangtao.net

             :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            6 隨筆 :: 185 文章 :: 68 評(píng)論 :: 0 Trackbacks

          采集網(wǎng)站:http://news.sina.com.cn

          采集任務(wù):新浪國(guó)內(nèi)新聞

          任務(wù)列表地址:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml

          第一步:添加采集站點(diǎn)

          操作:模塊管理-》采集管理-》采集站點(diǎn)管理-》添加采集站點(diǎn)
          兩個(gè)屬性:基本信息和站點(diǎn)規(guī)則,其中,基本信息為必填項(xiàng)。站點(diǎn)規(guī)則可以填寫(xiě),也可以不填寫(xiě)。所以說(shuō)這一步可以很簡(jiǎn)單,也可以稍微麻煩些(設(shè)置站點(diǎn)規(guī)則) 。

          A:基本信息填寫(xiě):

          站點(diǎn)名稱:就是你給這個(gè)網(wǎng)站做的記號(hào),便于以后管理所用。
          站點(diǎn) URL:就是網(wǎng)站的地址了。注意如果你采集的是網(wǎng)站的二級(jí)域名,比如
          http://roll.news.sina.com.cn 那么,這里就填寫(xiě)二級(jí)域名。
          站點(diǎn)描述:這個(gè)可以為空。

          B:站點(diǎn)規(guī)則:

          整個(gè)站點(diǎn)內(nèi)容頁(yè)(注意是內(nèi)容頁(yè),就是文章的詳細(xì)展示頁(yè)面)的通用規(guī)則,這里如果設(shè)置好后,以后添加采集任務(wù)時(shí),會(huì)自動(dòng)繼承這個(gè)規(guī)則,就會(huì)省很多工作量。
           

          第二步:添加采集任務(wù)

          操作:模塊管理-》采集管理-》采集任務(wù)管理-》添加采集任務(wù)
          或者:模塊管理-》采集管理-》采集站點(diǎn)管理-》新浪國(guó)內(nèi)新聞 一行中 “添加任務(wù)”
          采集任務(wù)有三個(gè)屬性:網(wǎng)址采集 內(nèi)容規(guī)則 高級(jí)設(shè)置

          A 網(wǎng)站采集:

          網(wǎng)址采集的目的是從列表頁(yè)采集到文章內(nèi)容頁(yè)的網(wǎng)址,通俗點(diǎn)就是模仿鼠標(biāo)從列表頁(yè)點(diǎn)擊文章內(nèi)容頁(yè)鏈接。下面對(duì)各個(gè)填寫(xiě)項(xiàng)說(shuō)明一下:

          基本信息:

          所屬站點(diǎn):這個(gè)必須選擇,只有選擇了站點(diǎn)后,后續(xù)操作才能正常進(jìn)行。
          任務(wù)名稱:這個(gè)必須填寫(xiě),用于記憶。
          簡(jiǎn)單描述:可不填寫(xiě)
          發(fā)布欄目:一定要選擇欄目,只有選擇發(fā)布欄目,才能在內(nèi)容規(guī)則里出現(xiàn)對(duì)應(yīng)的發(fā)布字段!
          網(wǎng)址采集:
          單一網(wǎng)頁(yè)或者無(wú)規(guī)律網(wǎng)頁(yè):這個(gè)最簡(jiǎn)單,只采集列表頁(yè)的一頁(yè)。
          比如:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml,
          http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml
           

          采集多個(gè)規(guī)律網(wǎng)頁(yè):
          如果采集頁(yè)面地址很有規(guī)律,可以采用“批量添加多頁(yè)”方式http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml變成
          http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_ (*).shtml 其中(*)就表示任意字符或者數(shù)字,我們稱其為通配符。接下來(lái),我們來(lái)定義這個(gè)通配符的變化范圍:
           

          通配符范圍: 從____到_____ 步長(zhǎng)倍數(shù):___ 倒序生成 補(bǔ)零: _____
          頁(yè)碼=通配符×步長(zhǎng)倍數(shù)
          倒序生成:主要是為了采集來(lái)的內(nèi)容也按照原文章列表里的順序, 一般網(wǎng)站列表分頁(yè)都是都是按照時(shí)間降序的,最新發(fā)布的文章都在第一頁(yè),優(yōu)先采集
          頁(yè)碼數(shù)大的。后采集頁(yè)面數(shù)小的。注意:現(xiàn)在有的站點(diǎn)列表頁(yè)是倒序生成的。
          補(bǔ)零:就是有的網(wǎng)站文章列表地址 1-10 頁(yè)的地址中規(guī)律是這樣的:index_01.shtml ,index_02.shtml對(duì)于這種情況,選中“補(bǔ)零“,就會(huì)自動(dòng)在生成的頁(yè)碼上補(bǔ)零了。
          文章網(wǎng)址篩選:這個(gè)是用來(lái)過(guò)濾非文章內(nèi)容網(wǎng)址的,就是要求文章內(nèi)容地址里必須包含什么字符,不能包含什么字符。
          頁(yè)面某一區(qū)域內(nèi)獲取網(wǎng)址:這個(gè)很重要,是用來(lái)確定文章列表的上下界限的。不填寫(xiě)則自動(dòng)匹配真?zhèn)€頁(yè)面區(qū)域。正確填寫(xiě)可以過(guò)濾掉不需要的網(wǎng)頁(yè)鏈接,填寫(xiě)要點(diǎn)是:
          1、找到文章列表的第一條記錄,然后頁(yè)面空白處右鍵->查看源文件,里面搜索第一條記錄的名稱,在第一條記錄之前,尋找特殊標(biāo)志作為邊界起點(diǎn)填到第一個(gè)框里。
          2、找到文章列表的最后一條記錄或者分頁(yè)標(biāo)志,在最后一條記錄之后尋找特殊標(biāo)識(shí),作為邊界終點(diǎn)填寫(xiě)到第二個(gè)框里。注意,這個(gè)特殊標(biāo)識(shí)必須為邊界起點(diǎn)之后第一次出現(xiàn)! 比如:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml 頁(yè)面中,我尋找的
          邊界:



          其中“<ul class="list_009">”出現(xiàn)在列表頁(yè)第一條記錄之前,并且是唯一的;而“<div class="hs01"></div>”是在出現(xiàn)在列表頁(yè)最后一條記錄之后,并且是“<ul class="list_009">”之后第一次出現(xiàn)。所以可以作為邊界終點(diǎn)。
          縮略圖采集規(guī)則:這個(gè)是用來(lái)采集列表頁(yè)縮略圖用的,留空即可。
          采集登陸網(wǎng)站: 這個(gè)是針對(duì)需要登陸后才能訪問(wèn)的內(nèi)容設(shè)計(jì)的,cookie 的獲取,可以使用 ieHTTPHeaders 獲取,或者用火車頭采集器獲取。可以參考相應(yīng)工具。然后把獲取的 cookie 粘貼到 使用已有的 COOKIE 后面的框框里即可。

          B 內(nèi)容規(guī)則:

          內(nèi)容規(guī)則這里看起來(lái)比較復(fù)雜,其實(shí)也很簡(jiǎn)單,為了便于說(shuō)明,我們只采集標(biāo)題、內(nèi)容兩個(gè)字段。采集內(nèi)容網(wǎng)址:
          http://news.sina.com.cn/c/2009-05-20/151017854839.shtml 的內(nèi)容采集規(guī)則,請(qǐng)你打開(kāi)這個(gè)網(wǎng)址,然后頁(yè)面空白處右鍵->查看源文件搜索標(biāo)題和內(nèi)容的開(kāi)始邊界。


          標(biāo)題:用了<title>和</title>作為邊界。實(shí)際上用 <title>和_就可以。由于title中都含有“_新聞中心_新浪網(wǎng)”這里用了信息替換功能。
          內(nèi)容:<!-- 正文內(nèi)容 begin -->和<!-- 正文內(nèi)容 end -->作為邊界,不過(guò)觀察代碼里面還有一些其他的注釋和鏈接所以用了信息替換替換掉“<!--google_ad_section_start --> ”多個(gè)替換用“(|)”分隔開(kāi)。
          Html自動(dòng)清除 就是清除采集內(nèi)容中帶有的一些html標(biāo)記了,根據(jù)實(shí)際情況自行選擇即可。
          設(shè)置文章分頁(yè)采集和合并:


           

          分頁(yè)代碼的邊界是指分頁(yè)代碼列表的上下邊界。

          C高級(jí)設(shè)置:

          列表頁(yè)編碼設(shè)置:列表頁(yè)的編碼,是 GBK還是 UTF-8,查看方法,打開(kāi)列表頁(yè),然后頁(yè)面空白處右鍵->查看源文件,搜索“charset=”等號(hào)之后就為頁(yè)面編碼。
          內(nèi)容頁(yè)編碼設(shè)置:這個(gè)是文章內(nèi)容頁(yè)的編碼,查看方法同上。
          下載圖片、下載 flash、下載文件等這些都很簡(jiǎn)單,看描述就行了
          多線程設(shè)置:這里,把線程數(shù)設(shè)置為 5 最后,數(shù)值越大,采集速度越快,占用系統(tǒng)資源也越大。
          超時(shí)時(shí)間:就是采集內(nèi)容鏈接無(wú)響應(yīng)時(shí)間,不用改變。 都設(shè)置好了,這時(shí)候點(diǎn)擊“保持設(shè)置”就行了。

          第三步:開(kāi)始采集網(wǎng)址

          操作:模塊管理-》采集管理-》采集任務(wù)管理-》管理操作中的采集網(wǎng)址
           
           

          第四步:開(kāi)始采集內(nèi)容

          操作:采集網(wǎng)址完成后,點(diǎn)擊“采集內(nèi)容”
          或者:模塊管理-》采集管理-》采集任務(wù)管理-》管理操作中的采集內(nèi)容
          點(diǎn)擊采集內(nèi)容后,會(huì)自動(dòng)顯示采集進(jìn)度條:
           

          第五步:發(fā)布內(nèi)容

          操作:采集內(nèi)容完成后,點(diǎn)擊“發(fā)布內(nèi)容”
           
          這里有需要注意的地方就是生成 html(發(fā)布速度慢!):如果你發(fā)布的內(nèi)容較少,可以選中此項(xiàng),如果你發(fā)布的文章超過(guò)百篇以上,建議不要選中該文件!因?yàn)?phpcms 默認(rèn)的每發(fā)布文章會(huì)更新網(wǎng)站首頁(yè)、列表頁(yè)、欄目頁(yè)、內(nèi)容頁(yè)的 html, 批量發(fā)布時(shí)會(huì)導(dǎo)致頻繁更新這些頁(yè)面而嚴(yán)重降低發(fā)布效率,取消該選項(xiàng),發(fā)布文章時(shí),只添加文章到數(shù)據(jù)庫(kù)里,效率很高,發(fā)布完成后,可以通過(guò) phpcms 內(nèi)置的“生成 HTML”功能,只更新特定欄目和欄目下的內(nèi)容頁(yè)就行了。
          “生成 HTML”操作位于“內(nèi)容管理”-》“生成 HTML”根據(jù)需要更新欄目頁(yè)和更新內(nèi)容頁(yè)即可。
          www.kuangtao.net 狂淘購(gòu)物網(wǎng)
          posted on 2010-02-20 10:46 狂淘 閱讀(1299) 評(píng)論(0)  編輯  收藏 所屬分類: 日常工具 說(shuō)明
          主站蜘蛛池模板: 南靖县| 合作市| 永顺县| 石棉县| 汨罗市| 铁力市| 临颍县| 四平市| 宝应县| 太仆寺旗| 东乡县| 凤台县| 临颍县| 郴州市| 郯城县| 曲阜市| 铜鼓县| 怀仁县| 蒲城县| 新龙县| 崇仁县| 宣化县| 伽师县| 凭祥市| 伊春市| 安西县| 惠东县| 邯郸市| 比如县| 瓦房店市| 无棣县| 新和县| 台州市| 梁平县| 新巴尔虎左旗| 新昌县| 莱州市| 黄梅县| 平武县| 攀枝花市| 大荔县|