色阁综合伊人av,91女神在线视频,国产精品一二一区

應用已有的開源搜索引警（Nutch應用）

???Nutch作為一款剛剛誕生的開元web搜索引警，提供了除商業搜索引警外的一種新的選擇。個人，企業都可以通過Nutch來構建適合于自己的搜索引警平臺，提供適合自己的搜索服務，而不必完全被動的接受商業搜索引警的各種制約。
???Nutch的工作流程可以分為兩個大的部分：抓取部分和搜索部分。抓取程序抓取頁面并把抓取回來的數據進行反向索引，搜索程序則對反向索引進行搜索回答用戶的請求，索引是聯系這兩者的紐帶。
???首先要建立一個空的url數據庫，并且把起始根urls添加到url數據庫中（步驟一），依據url數據庫在新創建的segment中生成fetchlist，存放了待爬行的urls（步驟二），根據fetchlist從Internet進行相關網頁內容的爬行抓取與下載（步驟三），隨后把這些抓取到的內容解析成文本與數據庫（步驟四）,從中提取出新的網頁連接url，并對url數據庫進行更新（步驟五），重復步驟一到五直到達到被指定的爬行抓取深度。以上構成了Nutch的整個抓取過程，可以用一個循環來對其進行描述：生成－抓取－更新－循環。
???當抓取過程完成后，對抓取到的網頁進行反向索引，對重復的內容與url進行剔除，然后對多個索引進行合并，為搜索建立統一的索引庫，而后用戶可以通過由tomcat容器提供的Nutch用戶界面提交搜索請求，然后由Lucene對索引庫進行查詢，并返回搜索結果給用戶，完成整個搜索過程。
???Nutch程序采用Java編寫，其運行環境需要一個Tomcat容器。本文運行環境以j2sdk1.4.2-12及tomcat－5.0.28為例。
???試用Nutch進行數據抓取。
???Nutch通過運行網絡爬蟲工具進行網絡內容的抓取，它提供了爬行企業內部網與整個互聯網兩種方式。

???先說爬行企業內部網
???爬行企業內部網適合于針對一小撮web服務器，并且網頁數在百萬以內的情況。它使用crawl命令進行網絡爬行抓取，在進行爬行前，需要對Nutch進行一系列的配置，過程如下：
???首先需要建立一個目錄，并且在此目錄中創建包含起始根urls的文件。我們以爬行sohu網站為例來講述。
???#cd? /usr/local/nutch
???#mkdir? urls
???#touch urls/sohu
???因此文件urls/sohu的內容為：http://www.sohu.com/。依據爬行網站的實際情況，可以繼續在此文件末尾添加其它url或者在url目錄里添加其它包含url的文件。需要注意的是Nutch7.0的版本中不需要創建目錄，直接創建包含起始根url的文件即可。
???接下來，要在config/crawl-urlfilter.txt文件，將中文MY.DOMAIN.NAME部分提環為準爬行的域名，并去掉前面的注釋。因此在本文中進行域名替換后的形式為：
???+^http://([a-z0-9]*\.)*sohu.com/
???文件config/crawl-urlfilter.txt主要用于限定爬行的url形式，其中url的形式使用正則表達式進行描述。
???然后，編輯文件conf/nutch-site.xml，并且包含以下內容：
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>http:.agent.name</name>
<value>sohu.com</value>
<description>sohu.com</description>
</property>
</configuration>
???除http.agent.name外，在<configuration></configuration>間還包括http.agent.description,http.agent.url,http.agent.email這三項。
???最后開始爬行抓取。完成對Nutch的配置后，運行crawl命令進行爬行。在本文中爬行腳本為：
#bin/nutch crawl urls -dir sohu -depth 5 -topN 1000
另外，crawl還有一個參數項：threads，他設定并行爬行的進程數。在爬行過程中，可以通過Nutch日志文件查看爬行的進展狀態，爬行完成后結果存放在sohu目錄里。
至此內部網的過程就完成了，爬行整個互聯網將在下篇文章中講解。

posted on 2007-03-16 10:24 hwswl 閱讀(746) 評論(3) 編輯收藏

100%信譽淘寶賣家，手表特低價銷售，歡迎登錄淘寶店鋪【傳奇時尚名品】店址~http://shop34134648.taobao.com，我們專營各式首飾時裝手表、名牌手表、學生兒童手表、運動休閑手表、商務手表。。。。。歡迎批發零售!
★六.一兒童節不忘了給小朋友禮物喔～～迪士尼3D（立體）手工貼畫卡通兒童手表全場一折，并買四送一，限量100只；
★老顧客答謝～老顧客凡購清倉特價名品牌手表再折扣10％，并且買十送一及贈送快遞包郵;
★新顧客光臨～累積購滿80元送積分印花一枚，印花可累積免費換禮品，禮品明細參見促銷區和有“積分”字樣的寶貝。回復更多評論

# 20集電視劇《小雪》劇組急招演員 2007-07-09 10:57 田霞

20集電視劇《小雪》劇組急招演員
現代劇《小雪》主角三男三女，劇中表現創業勱志主題以及講述韓國式的千折百回蕩氣回腸真摯純情感人的青春愛情故事
現招16歲至25歲女演員8名
18歲至45歲男演員10名
6歲、12歲、15歲小女演員三名
演員報名郵箱：whdtys90@126.com (如通過網上面試，兩天內回復，請查收)
劇組電話：027-63711305（田主任） 027-83935473
網址：http://whdtys.blog.sohu.com
劇組地址：武漢漢口萬松園路139號（湖北電影制片廠辦公樓一樓大田影視）
回復更多評論

# 武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005 2008-02-28 12:54 田霞

武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005
武漢大田影視文化傳播有限公司注冊三百萬資金、并有國家廣電總局核發的《影視制作發行經營許可證》的專業影視制作公司。公司自有專業設備：四套SONY專業高清攝像機、四套配套高清2000G非線性編輯器、專業拍攝搖臂、23米大型高檔拍攝軌道、專業拍攝燈光、廣播級的配音老師配音。高質量的拍攝制作，讓你的宣傳得到滿意的收益。網址：http://www.whdtys.com
武漢宣傳片、武漢廣告片、武漢專題片、電視廣告片、影視廣告、電影膠片廣告、武漢紀錄片、武漢匯報片、武漢教育片、酒店宣傳片、餐飲宣傳片、醫療廣告、汽車廣告、房地產廣告、企業形象宣傳片、企事業專題片、專業幻燈片制作、產品演示片、展會宣傳片、多媒體制作、電視頻道欄目包裝、DVD制作、VCD制作、實拍動態MTV制作。專業廣告創意、廣告設計、廣告策劃、廣告腳本、廣播級配音、專業數字高清攝像機拍攝、專業配套數字后期非編編輯、片頭三維制作、LOGO三維制作、專業的團隊為您一條龍服務。曾為中國石化、東風設計院、神龍汽車公司、東江汽車、湖北恒信德龍汽車、中國移動、中國移通工程、三七藥業集團、武漢部隊、雀巢集團、武漢污水工程、武漢大學、科恒工控、王漢五講座、鹿春園、漢陽物價局、珠寶業、白酒業、醫藥業、QQ幻想游戲等公司制作。為客戶制作出優良的視頻作品，贏得了良好的口碑和贊譽。公司堅持“以市場為導向，以客戶為中心”的服務理念，提供高水準的服務。從客戶需求出發，不斷完善服務流程，深化客戶服務，提高質量，同時也為品牌搭建強勢傳播平臺。承接批量刻錄光盤：印刷（光盤打印，絲網印刷，膠印，壓膜）我們專業提供各式光盤（VCD碟、DVD碟），各式光盤包裝盒及塑封服務。
武漢大田影視文化傳播有限公司
電話：13995689448、027-62377005（業務部田霞）
傳真：027-83935473
網址：http://www.whdtys.com
視頻網：http://hexun.com/whdtys
辦公室地址：武漢漢口萬松園路139號（湖北電影制片廠）
后期工作室：武漢漢口常青花園12小區新康苑18-2-402室(武漢大田影視)
回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

# 手表超低價批零兼營,更多1折貨品,清倉特價貨品等著你 2007-05-22 17:10 傳奇時尚名品

# 20集電視劇《小雪》劇組急招演員 2007-07-09 10:57 田霞

# 武漢宣傳片、電視廣告片、幻燈片拍攝制作——武漢大田影視 13995689448 027-62377005 2008-02-28 12:54 田霞

hwswl

應用已有的開源搜索引警（Nutch應用）

評論

導航

統計

留言簿

我參與的團隊

文章檔案

搜索

最新評論