h视频网站在线观看,久久国产精品毛片,中文字幕在线影院

應(yīng)用已有的開源搜索引警（Nutch應(yīng)用）

???Nutch作為一款剛剛誕生的開元web搜索引警，提供了除商業(yè)搜索引警外的一種新的選擇。個人，企業(yè)都可以通過Nutch來構(gòu)建適合于自己的搜索引警平臺，提供適合自己的搜索服務(wù)，而不必完全被動的接受商業(yè)搜索引警的各種制約。
???Nutch的工作流程可以分為兩個大的部分：抓取部分和搜索部分。抓取程序抓取頁面并把抓取回來的數(shù)據(jù)進行反向索引，搜索程序則對反向索引進行搜索回答用戶的請求，索引是聯(lián)系這兩者的紐帶。
???首先要建立一個空的url數(shù)據(jù)庫，并且把起始根urls添加到url數(shù)據(jù)庫中（步驟一），依據(jù)url數(shù)據(jù)庫在新創(chuàng)建的segment中生成fetchlist，存放了待爬行的urls（步驟二），根據(jù)fetchlist從Internet進行相關(guān)網(wǎng)頁內(nèi)容的爬行抓取與下載（步驟三），隨后把這些抓取到的內(nèi)容解析成文本與數(shù)據(jù)庫（步驟四）,從中提取出新的網(wǎng)頁連接url，并對url數(shù)據(jù)庫進行更新（步驟五），重復(fù)步驟一到五直到達到被指定的爬行抓取深度。以上構(gòu)成了Nutch的整個抓取過程，可以用一個循環(huán)來對其進行描述：生成－抓取－更新－循環(huán)。
???當(dāng)抓取過程完成后，對抓取到的網(wǎng)頁進行反向索引，對重復(fù)的內(nèi)容與url進行剔除，然后對多個索引進行合并，為搜索建立統(tǒng)一的索引庫，而后用戶可以通過由tomcat容器提供的Nutch用戶界面提交搜索請求，然后由Lucene對索引庫進行查詢，并返回搜索結(jié)果給用戶，完成整個搜索過程。
???Nutch程序采用Java編寫，其運行環(huán)境需要一個Tomcat容器。本文運行環(huán)境以j2sdk1.4.2-12及tomcat－5.0.28為例。
???試用Nutch進行數(shù)據(jù)抓取。
???Nutch通過運行網(wǎng)絡(luò)爬蟲工具進行網(wǎng)絡(luò)內(nèi)容的抓取，它提供了爬行企業(yè)內(nèi)部網(wǎng)與整個互聯(lián)網(wǎng)兩種方式。

???先說爬行企業(yè)內(nèi)部網(wǎng)
???爬行企業(yè)內(nèi)部網(wǎng)適合于針對一小撮web服務(wù)器，并且網(wǎng)頁數(shù)在百萬以內(nèi)的情況。它使用crawl命令進行網(wǎng)絡(luò)爬行抓取，在進行爬行前，需要對Nutch進行一系列的配置，過程如下：
???首先需要建立一個目錄，并且在此目錄中創(chuàng)建包含起始根urls的文件。我們以爬行sohu網(wǎng)站為例來講述。
???#cd? /usr/local/nutch
???#mkdir? urls
???#touch urls/sohu
???因此文件urls/sohu的內(nèi)容為：http://www.sohu.com/。依據(jù)爬行網(wǎng)站的實際情況，可以繼續(xù)在此文件末尾添加其它url或者在url目錄里添加其它包含url的文件。需要注意的是Nutch7.0的版本中不需要創(chuàng)建目錄，直接創(chuàng)建包含起始根url的文件即可。
???接下來，要在config/crawl-urlfilter.txt文件，將中文MY.DOMAIN.NAME部分提環(huán)為準(zhǔn)爬行的域名，并去掉前面的注釋。因此在本文中進行域名替換后的形式為：
???+^http://([a-z0-9]*\.)*sohu.com/
???文件config/crawl-urlfilter.txt主要用于限定爬行的url形式，其中url的形式使用正則表達式進行描述。
???然后，編輯文件conf/nutch-site.xml，并且包含以下內(nèi)容：
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>http:.agent.name</name>
<value>sohu.com</value>
<description>sohu.com</description>
</property>
</configuration>
???除http.agent.name外，在<configuration></configuration>間還包括http.agent.description,http.agent.url,http.agent.email這三項。
???最后開始爬行抓取。完成對Nutch的配置后，運行crawl命令進行爬行。在本文中爬行腳本為：
#bin/nutch crawl urls -dir sohu -depth 5 -topN 1000
另外，crawl還有一個參數(shù)項：threads，他設(shè)定并行爬行的進程數(shù)。在爬行過程中，可以通過Nutch日志文件查看爬行的進展?fàn)顟B(tài)，爬行完成后結(jié)果存放在sohu目錄里。
至此內(nèi)部網(wǎng)的過程就完成了，爬行整個互聯(lián)網(wǎng)將在下篇文章中講解。

posted on 2007-03-16 10:24 hwswl 閱讀(746) 評論(3) 編輯收藏

100%信譽淘寶賣家，手表特低價銷售，歡迎登錄淘寶店鋪【傳奇時尚名品】店址~http://shop34134648.taobao.com，我們專營各式首飾時裝手表、名牌手表、學(xué)生兒童手表、運動休閑手表、商務(wù)手表。。。。。歡迎批發(fā)零售!
★六.一兒童節(jié)不忘了給小朋友禮物喔～～迪士尼3D（立體）手工貼畫卡通兒童手表全場一折，并買四送一，限量100只；
★老顧客答謝～老顧客凡購清倉特價名品牌手表再折扣10％，并且買十送一及贈送快遞包郵;
★新顧客光臨～累積購滿80元送積分印花一枚，印花可累積免費換禮品，禮品明細參見促銷區(qū)和有“積分”字樣的寶貝。回復(fù) 更多評論

# 20集電視劇《小雪》劇組急招演員 2007-07-09 10:57 田霞

20集電視劇《小雪》劇組急招演員
現(xiàn)代劇《小雪》主角三男三女，劇中表現(xiàn)創(chuàng)業(yè)勱志主題以及講述韓國式的千折百回蕩氣回腸真摯純情感人的青春愛情故事
現(xiàn)招16歲至25歲女演員8名
18歲至45歲男演員10名
6歲、12歲、15歲小女演員三名
演員報名郵箱：whdtys90@126.com (如通過網(wǎng)上面試，兩天內(nèi)回復(fù)，請查收)
劇組電話：027-63711305（田主任） 027-83935473
網(wǎng)址：http://whdtys.blog.sohu.com
劇組地址：武漢漢口萬松園路139號（湖北電影制片廠辦公樓一樓大田影視）
回復(fù) 更多評論

# 武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005 2008-02-28 12:54 田霞

武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005
武漢大田影視文化傳播有限公司注冊三百萬資金、并有國家廣電總局核發(fā)的《影視制作發(fā)行經(jīng)營許可證》的專業(yè)影視制作公司。公司自有專業(yè)設(shè)備：四套SONY專業(yè)高清攝像機、四套配套高清2000G非線性編輯器、專業(yè)拍攝搖臂、23米大型高檔拍攝軌道、專業(yè)拍攝燈光、廣播級的配音老師配音。高質(zhì)量的拍攝制作，讓你的宣傳得到滿意的收益。網(wǎng)址：http://www.whdtys.com
武漢宣傳片、武漢廣告片、武漢專題片、電視廣告片、影視廣告、電影膠片廣告、武漢紀(jì)錄片、武漢匯報片、武漢教育片、酒店宣傳片、餐飲宣傳片、醫(yī)療廣告、汽車廣告、房地產(chǎn)廣告、企業(yè)形象宣傳片、企事業(yè)專題片、專業(yè)幻燈片制作、產(chǎn)品演示片、展會宣傳片、多媒體制作、電視頻道欄目包裝、DVD制作、VCD制作、實拍動態(tài)MTV制作。專業(yè)廣告創(chuàng)意、廣告設(shè)計、廣告策劃、廣告腳本、廣播級配音、專業(yè)數(shù)字高清攝像機拍攝、專業(yè)配套數(shù)字后期非編編輯、片頭三維制作、LOGO三維制作、專業(yè)的團隊為您一條龍服務(wù)。曾為中國石化、東風(fēng)設(shè)計院、神龍汽車公司、東江汽車、湖北恒信德龍汽車、中國移動、中國移通工程、三七藥業(yè)集團、武漢部隊、雀巢集團、武漢污水工程、武漢大學(xué)、科恒工控、王漢五講座、鹿春園、漢陽物價局、珠寶業(yè)、白酒業(yè)、醫(yī)藥業(yè)、QQ幻想游戲等公司制作。為客戶制作出優(yōu)良的視頻作品，贏得了良好的口碑和贊譽。公司堅持“以市場為導(dǎo)向，以客戶為中心”的服務(wù)理念，提供高水準(zhǔn)的服務(wù)。從客戶需求出發(fā)，不斷完善服務(wù)流程，深化客戶服務(wù)，提高質(zhì)量，同時也為品牌搭建強勢傳播平臺。承接批量刻錄光盤：印刷（光盤打印，絲網(wǎng)印刷，膠印，壓膜）我們專業(yè)提供各式光盤（VCD碟、DVD碟），各式光盤包裝盒及塑封服務(wù)。
武漢大田影視文化傳播有限公司
電話：13995689448、027-62377005（業(yè)務(wù)部田霞）
傳真：027-83935473
網(wǎng)址：http://www.whdtys.com
視頻網(wǎng)：http://hexun.com/whdtys
辦公室地址：武漢漢口萬松園路139號（湖北電影制片廠）
后期工作室：武漢漢口常青花園12小區(qū)新康苑18-2-402室(武漢大田影視)
回復(fù) 更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理

# 手表超低價批零兼營,更多1折貨品,清倉特價貨品等著你 2007-05-22 17:10 傳奇時尚名品

# 20集電視劇《小雪》劇組急招演員 2007-07-09 10:57 田霞

# 武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005 2008-02-28 12:54 田霞

hwswl

應(yīng)用已有的開源搜索引警（Nutch應(yīng)用）

評論

導(dǎo)航

統(tǒng)計

留言簿

我參與的團隊

文章檔案

搜索

最新評論