成人欧美magnet,久久久久久久97,国产乱人伦精品一区二区在线观看

應(yīng)用已有的開源搜索引警（Nutch應(yīng)用）

???Nutch作為一款剛剛誕生的開元web搜索引警，提供了除商業(yè)搜索引警外的一種新的選擇。個(gè)人，企業(yè)都可以通過Nutch來構(gòu)建適合于自己的搜索引警平臺(tái)，提供適合自己的搜索服務(wù)，而不必完全被動(dòng)的接受商業(yè)搜索引警的各種制約。
???Nutch的工作流程可以分為兩個(gè)大的部分：抓取部分和搜索部分。抓取程序抓取頁面并把抓取回來的數(shù)據(jù)進(jìn)行反向索引，搜索程序則對(duì)反向索引進(jìn)行搜索回答用戶的請(qǐng)求，索引是聯(lián)系這兩者的紐帶。
???首先要建立一個(gè)空的url數(shù)據(jù)庫，并且把起始根urls添加到url數(shù)據(jù)庫中（步驟一），依據(jù)url數(shù)據(jù)庫在新創(chuàng)建的segment中生成fetchlist，存放了待爬行的urls（步驟二），根據(jù)fetchlist從Internet進(jìn)行相關(guān)網(wǎng)頁內(nèi)容的爬行抓取與下載（步驟三），隨后把這些抓取到的內(nèi)容解析成文本與數(shù)據(jù)庫（步驟四）,從中提取出新的網(wǎng)頁連接url，并對(duì)url數(shù)據(jù)庫進(jìn)行更新（步驟五），重復(fù)步驟一到五直到達(dá)到被指定的爬行抓取深度。以上構(gòu)成了Nutch的整個(gè)抓取過程，可以用一個(gè)循環(huán)來對(duì)其進(jìn)行描述：生成－抓取－更新－循環(huán)。
???當(dāng)抓取過程完成后，對(duì)抓取到的網(wǎng)頁進(jìn)行反向索引，對(duì)重復(fù)的內(nèi)容與url進(jìn)行剔除，然后對(duì)多個(gè)索引進(jìn)行合并，為搜索建立統(tǒng)一的索引庫，而后用戶可以通過由tomcat容器提供的Nutch用戶界面提交搜索請(qǐng)求，然后由Lucene對(duì)索引庫進(jìn)行查詢，并返回搜索結(jié)果給用戶，完成整個(gè)搜索過程。
???Nutch程序采用Java編寫，其運(yùn)行環(huán)境需要一個(gè)Tomcat容器。本文運(yùn)行環(huán)境以j2sdk1.4.2-12及tomcat－5.0.28為例。
???試用Nutch進(jìn)行數(shù)據(jù)抓取。
???Nutch通過運(yùn)行網(wǎng)絡(luò)爬蟲工具進(jìn)行網(wǎng)絡(luò)內(nèi)容的抓取，它提供了爬行企業(yè)內(nèi)部網(wǎng)與整個(gè)互聯(lián)網(wǎng)兩種方式。

???先說爬行企業(yè)內(nèi)部網(wǎng)
???爬行企業(yè)內(nèi)部網(wǎng)適合于針對(duì)一小撮web服務(wù)器，并且網(wǎng)頁數(shù)在百萬以內(nèi)的情況。它使用crawl命令進(jìn)行網(wǎng)絡(luò)爬行抓取，在進(jìn)行爬行前，需要對(duì)Nutch進(jìn)行一系列的配置，過程如下：
???首先需要建立一個(gè)目錄，并且在此目錄中創(chuàng)建包含起始根urls的文件。我們以爬行sohu網(wǎng)站為例來講述。
???#cd? /usr/local/nutch
???#mkdir? urls
???#touch urls/sohu
???因此文件urls/sohu的內(nèi)容為：http://www.sohu.com/。依據(jù)爬行網(wǎng)站的實(shí)際情況，可以繼續(xù)在此文件末尾添加其它url或者在url目錄里添加其它包含url的文件。需要注意的是Nutch7.0的版本中不需要?jiǎng)?chuàng)建目錄，直接創(chuàng)建包含起始根url的文件即可。
???接下來，要在config/crawl-urlfilter.txt文件，將中文MY.DOMAIN.NAME部分提環(huán)為準(zhǔn)爬行的域名，并去掉前面的注釋。因此在本文中進(jìn)行域名替換后的形式為：
???+^http://([a-z0-9]*\.)*sohu.com/
???文件config/crawl-urlfilter.txt主要用于限定爬行的url形式，其中url的形式使用正則表達(dá)式進(jìn)行描述。
???然后，編輯文件conf/nutch-site.xml，并且包含以下內(nèi)容：
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>http:.agent.name</name>
<value>sohu.com</value>
<description>sohu.com</description>
</property>
</configuration>
???除http.agent.name外，在<configuration></configuration>間還包括http.agent.description,http.agent.url,http.agent.email這三項(xiàng)。
???最后開始爬行抓取。完成對(duì)Nutch的配置后，運(yùn)行crawl命令進(jìn)行爬行。在本文中爬行腳本為：
#bin/nutch crawl urls -dir sohu -depth 5 -topN 1000
另外，crawl還有一個(gè)參數(shù)項(xiàng)：threads，他設(shè)定并行爬行的進(jìn)程數(shù)。在爬行過程中，可以通過Nutch日志文件查看爬行的進(jìn)展?fàn)顟B(tài)，爬行完成后結(jié)果存放在sohu目錄里。
至此內(nèi)部網(wǎng)的過程就完成了，爬行整個(gè)互聯(lián)網(wǎng)將在下篇文章中講解。

posted on 2007-03-16 10:24 hwswl 閱讀(746) 評(píng)論(3) 編輯收藏

評(píng)論

# 手表超低價(jià)批零兼營,更多1折貨品,清倉特價(jià)貨品等著你 2007-05-22 17:10 傳奇時(shí)尚名品

100%信譽(yù)淘寶賣家，手表特低價(jià)銷售，歡迎登錄淘寶店鋪【傳奇時(shí)尚名品】店址~http://shop34134648.taobao.com，我們專營各式首飾時(shí)裝手表、名牌手表、學(xué)生兒童手表、運(yùn)動(dòng)休閑手表、商務(wù)手表。。。。。歡迎批發(fā)零售!
★六.一兒童節(jié)不忘了給小朋友禮物喔～～迪士尼3D（立體）手工貼畫卡通兒童手表全場一折，并買四送一，限量100只；
★老顧客答謝～老顧客凡購清倉特價(jià)名品牌手表再折扣10％，并且買十送一及贈(zèng)送快遞包郵;
★新顧客光臨～累積購滿80元送積分印花一枚，印花可累積免費(fèi)換禮品，禮品明細(xì)參見促銷區(qū)和有“積分”字樣的寶貝。回復(fù) 更多評(píng)論

# 20集電視劇《小雪》劇組急招演員 2007-07-09 10:57 田霞

20集電視劇《小雪》劇組急招演員
現(xiàn)代劇《小雪》主角三男三女，劇中表現(xiàn)創(chuàng)業(yè)勱志主題以及講述韓國式的千折百回蕩氣回腸真摯純情感人的青春愛情故事
現(xiàn)招16歲至25歲女演員8名
18歲至45歲男演員10名
6歲、12歲、15歲小女演員三名
演員報(bào)名郵箱：whdtys90@126.com (如通過網(wǎng)上面試，兩天內(nèi)回復(fù)，請(qǐng)查收)
劇組電話：027-63711305（田主任） 027-83935473
網(wǎng)址：http://whdtys.blog.sohu.com
劇組地址：武漢漢口萬松園路139號(hào)（湖北電影制片廠辦公樓一樓大田影視）
回復(fù) 更多評(píng)論

# 武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005 2008-02-28 12:54 田霞

武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005
武漢大田影視文化傳播有限公司注冊三百萬資金、并有國家廣電總局核發(fā)的《影視制作發(fā)行經(jīng)營許可證》的專業(yè)影視制作公司。公司自有專業(yè)設(shè)備：四套SONY專業(yè)高清攝像機(jī)、四套配套高清2000G非線性編輯器、專業(yè)拍攝搖臂、23米大型高檔拍攝軌道、專業(yè)拍攝燈光、廣播級(jí)的配音老師配音。高質(zhì)量的拍攝制作，讓你的宣傳得到滿意的收益。網(wǎng)址：http://www.whdtys.com
武漢宣傳片、武漢廣告片、武漢專題片、電視廣告片、影視廣告、電影膠片廣告、武漢紀(jì)錄片、武漢匯報(bào)片、武漢教育片、酒店宣傳片、餐飲宣傳片、醫(yī)療廣告、汽車廣告、房地產(chǎn)廣告、企業(yè)形象宣傳片、企事業(yè)專題片、專業(yè)幻燈片制作、產(chǎn)品演示片、展會(huì)宣傳片、多媒體制作、電視頻道欄目包裝、DVD制作、VCD制作、實(shí)拍動(dòng)態(tài)MTV制作。專業(yè)廣告創(chuàng)意、廣告設(shè)計(jì)、廣告策劃、廣告腳本、廣播級(jí)配音、專業(yè)數(shù)字高清攝像機(jī)拍攝、專業(yè)配套數(shù)字后期非編編輯、片頭三維制作、LOGO三維制作、專業(yè)的團(tuán)隊(duì)為您一條龍服務(wù)。曾為中國石化、東風(fēng)設(shè)計(jì)院、神龍汽車公司、東江汽車、湖北恒信德龍汽車、中國移動(dòng)、中國移通工程、三七藥業(yè)集團(tuán)、武漢部隊(duì)、雀巢集團(tuán)、武漢污水工程、武漢大學(xué)、科恒工控、王漢五講座、鹿春園、漢陽物價(jià)局、珠寶業(yè)、白酒業(yè)、醫(yī)藥業(yè)、QQ幻想游戲等公司制作。為客戶制作出優(yōu)良的視頻作品，贏得了良好的口碑和贊譽(yù)。公司堅(jiān)持“以市場為導(dǎo)向，以客戶為中心”的服務(wù)理念，提供高水準(zhǔn)的服務(wù)。從客戶需求出發(fā)，不斷完善服務(wù)流程，深化客戶服務(wù)，提高質(zhì)量，同時(shí)也為品牌搭建強(qiáng)勢傳播平臺(tái)。承接批量刻錄光盤：印刷（光盤打印，絲網(wǎng)印刷，膠印，壓膜）我們專業(yè)提供各式光盤（VCD碟、DVD碟），各式光盤包裝盒及塑封服務(wù)。
武漢大田影視文化傳播有限公司
電話：13995689448、027-62377005（業(yè)務(wù)部田霞）
傳真：027-83935473
網(wǎng)址：http://www.whdtys.com
視頻網(wǎng)：http://hexun.com/whdtys
辦公室地址：武漢漢口萬松園路139號(hào)（湖北電影制片廠）
后期工作室：武漢漢口常青花園12小區(qū)新康苑18-2-402室(武漢大田影視)
回復(fù) 更多評(píng)論

新用戶注冊刷新評(píng)論列表


只有注冊用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理

# 手表超低價(jià)批零兼營,更多1折貨品,清倉特價(jià)貨品等著你 2007-05-22 17:10 傳奇時(shí)尚名品

# 20集電視劇《小雪》劇組急招演員 2007-07-09 10:57 田霞

# 武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005 2008-02-28 12:54 田霞

hwswl

應(yīng)用已有的開源搜索引警（Nutch應(yīng)用）

評(píng)論

導(dǎo)航

統(tǒng)計(jì)

留言簿

我參與的團(tuán)隊(duì)

文章檔案

搜索

最新評(píng)論