欧美日日夜夜,国产精品色在线,欧美日韩一区中文字幕

采集網(wǎng)站：http://news.sina.com.cn

采集任務(wù)：新浪國(guó)內(nèi)新聞

任務(wù)列表地址：http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml

第一步：添加采集站點(diǎn)

操作：模塊管理-》采集管理-》采集站點(diǎn)管理-》添加采集站點(diǎn)
兩個(gè)屬性：基本信息和站點(diǎn)規(guī)則，其中，基本信息為必填項(xiàng)。站點(diǎn)規(guī)則可以填寫(xiě)，也可以不填寫(xiě)。所以說(shuō)這一步可以很簡(jiǎn)單，也可以稍微麻煩些（設(shè)置站點(diǎn)規(guī)則）。

A：基本信息填寫(xiě)：

站點(diǎn)名稱：就是你給這個(gè)網(wǎng)站做的記號(hào)，便于以后管理所用。
站點(diǎn) URL：就是網(wǎng)站的地址了。注意如果你采集的是網(wǎng)站的二級(jí)域名，比如
http://roll.news.sina.com.cn 那么，這里就填寫(xiě)二級(jí)域名。
站點(diǎn)描述：這個(gè)可以為空。

B：站點(diǎn)規(guī)則：

整個(gè)站點(diǎn)內(nèi)容頁(yè)（注意是內(nèi)容頁(yè)，就是文章的詳細(xì)展示頁(yè)面）的通用規(guī)則，這里如果設(shè)置好后，以后添加采集任務(wù)時(shí)，會(huì)自動(dòng)繼承這個(gè)規(guī)則，就會(huì)省很多工作量。

第二步：添加采集任務(wù)

操作：模塊管理-》采集管理-》采集任務(wù)管理-》添加采集任務(wù)
或者：模塊管理-》采集管理-》采集站點(diǎn)管理-》新浪國(guó)內(nèi)新聞一行中 “添加任務(wù)”
采集任務(wù)有三個(gè)屬性：網(wǎng)址采集內(nèi)容規(guī)則高級(jí)設(shè)置

A 網(wǎng)站采集：

網(wǎng)址采集的目的是從列表頁(yè)采集到文章內(nèi)容頁(yè)的網(wǎng)址，通俗點(diǎn)就是模仿鼠標(biāo)從列表頁(yè)點(diǎn)擊文章內(nèi)容頁(yè)鏈接。下面對(duì)各個(gè)填寫(xiě)項(xiàng)說(shuō)明一下：

基本信息：

所屬站點(diǎn)：這個(gè)必須選擇，只有選擇了站點(diǎn)后，后續(xù)操作才能正常進(jìn)行。
任務(wù)名稱：這個(gè)必須填寫(xiě)，用于記憶。
簡(jiǎn)單描述：可不填寫(xiě)
發(fā)布欄目：一定要選擇欄目，只有選擇發(fā)布欄目，才能在內(nèi)容規(guī)則里出現(xiàn)對(duì)應(yīng)的發(fā)布字段！
網(wǎng)址采集：
單一網(wǎng)頁(yè)或者無(wú)規(guī)律網(wǎng)頁(yè)：這個(gè)最簡(jiǎn)單，只采集列表頁(yè)的一頁(yè)。
比如：http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml，
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml

采集多個(gè)規(guī)律網(wǎng)頁(yè)：
如果采集頁(yè)面地址很有規(guī)律，可以采用“批量添加多頁(yè)”方式http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml變成
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_ (*).shtml 其中(*)就表示任意字符或者數(shù)字，我們稱其為通配符。接下來(lái)，我們來(lái)定義這個(gè)通配符的變化范圍：

通配符范圍： 從____到_____ 步長(zhǎng)倍數(shù):___ 倒序生成補(bǔ)零: _____
頁(yè)碼=通配符×步長(zhǎng)倍數(shù)
倒序生成：主要是為了采集來(lái)的內(nèi)容也按照原文章列表里的順序，一般網(wǎng)站列表分頁(yè)都是都是按照時(shí)間降序的，最新發(fā)布的文章都在第一頁(yè)，優(yōu)先采集
頁(yè)碼數(shù)大的。后采集頁(yè)面數(shù)小的。注意：現(xiàn)在有的站點(diǎn)列表頁(yè)是倒序生成的。
補(bǔ)零：就是有的網(wǎng)站文章列表地址 1-10 頁(yè)的地址中規(guī)律是這樣的：index_01.shtml ，index_02.shtml對(duì)于這種情況，選中“補(bǔ)零“，就會(huì)自動(dòng)在生成的頁(yè)碼上補(bǔ)零了。
文章網(wǎng)址篩選：這個(gè)是用來(lái)過(guò)濾非文章內(nèi)容網(wǎng)址的，就是要求文章內(nèi)容地址里必須包含什么字符，不能包含什么字符。
頁(yè)面某一區(qū)域內(nèi)獲取網(wǎng)址:這個(gè)很重要，是用來(lái)確定文章列表的上下界限的。不填寫(xiě)則自動(dòng)匹配真?zhèn)€頁(yè)面區(qū)域。正確填寫(xiě)可以過(guò)濾掉不需要的網(wǎng)頁(yè)鏈接，填寫(xiě)要點(diǎn)是：
1、找到文章列表的第一條記錄，然后頁(yè)面空白處右鍵->查看源文件，里面搜索第一條記錄的名稱，在第一條記錄之前，尋找特殊標(biāo)志作為邊界起點(diǎn)填到第一個(gè)框里。
2、找到文章列表的最后一條記錄或者分頁(yè)標(biāo)志，在最后一條記錄之后尋找特殊標(biāo)識(shí)，作為邊界終點(diǎn)填寫(xiě)到第二個(gè)框里。注意，這個(gè)特殊標(biāo)識(shí)必須為邊界起點(diǎn)之后第一次出現(xiàn)！比如：http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml 頁(yè)面中，我尋找的
邊界：

其中“<ul class="list_009">”出現(xiàn)在列表頁(yè)第一條記錄之前，并且是唯一的；而“<div class="hs01"></div>”是在出現(xiàn)在列表頁(yè)最后一條記錄之后，并且是“<ul class="list_009">”之后第一次出現(xiàn)。所以可以作為邊界終點(diǎn)。
縮略圖采集規(guī)則：這個(gè)是用來(lái)采集列表頁(yè)縮略圖用的，留空即可。
采集登陸網(wǎng)站： 這個(gè)是針對(duì)需要登陸后才能訪問(wèn)的內(nèi)容設(shè)計(jì)的，cookie 的獲取，可以使用 ieHTTPHeaders 獲取，或者用火車頭采集器獲取。可以參考相應(yīng)工具。然后把獲取的 cookie 粘貼到使用已有的 COOKIE 后面的框框里即可。

B 內(nèi)容規(guī)則：

內(nèi)容規(guī)則這里看起來(lái)比較復(fù)雜，其實(shí)也很簡(jiǎn)單，為了便于說(shuō)明，我們只采集標(biāo)題、內(nèi)容兩個(gè)字段。采集內(nèi)容網(wǎng)址：
http://news.sina.com.cn/c/2009-05-20/151017854839.shtml 的內(nèi)容采集規(guī)則，請(qǐng)你打開(kāi)這個(gè)網(wǎng)址，然后頁(yè)面空白處右鍵->查看源文件搜索標(biāo)題和內(nèi)容的開(kāi)始邊界。

標(biāo)題：用了<title>和</title>作為邊界。實(shí)際上用 <title>和_就可以。由于title中都含有“_新聞中心_新浪網(wǎng)”這里用了信息替換功能。
內(nèi)容：和作為邊界，不過(guò)觀察代碼里面還有一些其他的注釋和鏈接所以用了信息替換替換掉“ ”多個(gè)替換用“(|)”分隔開(kāi)。
Html自動(dòng)清除就是清除采集內(nèi)容中帶有的一些html標(biāo)記了，根據(jù)實(shí)際情況自行選擇即可。
設(shè)置文章分頁(yè)采集和合并：

分頁(yè)代碼的邊界是指分頁(yè)代碼列表的上下邊界。

C高級(jí)設(shè)置：

列表頁(yè)編碼設(shè)置：列表頁(yè)的編碼，是 GBK還是 UTF-8，查看方法，打開(kāi)列表頁(yè)，然后頁(yè)面空白處右鍵->查看源文件，搜索“charset=”等號(hào)之后就為頁(yè)面編碼。
內(nèi)容頁(yè)編碼設(shè)置：這個(gè)是文章內(nèi)容頁(yè)的編碼，查看方法同上。
下載圖片、下載 flash、下載文件等這些都很簡(jiǎn)單，看描述就行了
多線程設(shè)置：這里，把線程數(shù)設(shè)置為 5 最后，數(shù)值越大，采集速度越快，占用系統(tǒng)資源也越大。
超時(shí)時(shí)間：就是采集內(nèi)容鏈接無(wú)響應(yīng)時(shí)間，不用改變。都設(shè)置好了，這時(shí)候點(diǎn)擊“保持設(shè)置”就行了。

第三步：開(kāi)始采集網(wǎng)址

操作：模塊管理-》采集管理-》采集任務(wù)管理-》管理操作中的采集網(wǎng)址。

第四步：開(kāi)始采集內(nèi)容

操作：采集網(wǎng)址完成后，點(diǎn)擊“采集內(nèi)容”
或者：模塊管理-》采集管理-》采集任務(wù)管理-》管理操作中的采集內(nèi)容。
點(diǎn)擊采集內(nèi)容后，會(huì)自動(dòng)顯示采集進(jìn)度條：

第五步：發(fā)布內(nèi)容

操作：采集內(nèi)容完成后，點(diǎn)擊“發(fā)布內(nèi)容”

這里有需要注意的地方就是生成 html(發(fā)布速度慢!)：如果你發(fā)布的內(nèi)容較少，可以選中此項(xiàng)，如果你發(fā)布的文章超過(guò)百篇以上，建議不要選中該文件！因?yàn)?phpcms 默認(rèn)的每發(fā)布文章會(huì)更新網(wǎng)站首頁(yè)、列表頁(yè)、欄目頁(yè)、內(nèi)容頁(yè)的 html, 批量發(fā)布時(shí)會(huì)導(dǎo)致頻繁更新這些頁(yè)面而嚴(yán)重降低發(fā)布效率，取消該選項(xiàng)，發(fā)布文章時(shí)，只添加文章到數(shù)據(jù)庫(kù)里，效率很高，發(fā)布完成后，可以通過(guò) phpcms 內(nèi)置的“生成 HTML”功能，只更新特定欄目和欄目下的內(nèi)容頁(yè)就行了。
“生成 HTML”操作位于“內(nèi)容管理”-》“生成 HTML”根據(jù)需要更新欄目頁(yè)和更新內(nèi)容頁(yè)即可。
www.kuangtao.net 狂淘購(gòu)物網(wǎng)

posted on 2010-02-20 10:46 狂淘閱讀(1299) 評(píng)論(0) 編輯收藏所屬分類: 日常工具說(shuō)明

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: phpcms 采集模塊教程怎么設(shè)置使MyEclipse的代碼提示功能在cmd中如何啟動(dòng)sql server 和mysql chr碼值對(duì)應(yīng)列表大全 Windows 2003系統(tǒng)修改密碼辦法開(kāi)始→運(yùn)行→輸入的命令集錦

狂淘

公告

留言簿(1)

隨筆分類(5)

隨筆檔案(6)

文章分類(181)

文章檔案(183)

相冊(cè)

QQ客服

博客

狂淘網(wǎng)

最新隨筆

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜