posts - 110,  comments - 152,  trackbacks - 0

          晚上花了將近兩個小時的時間,看了網絡上一些關于Nutch的介紹.
          搞明白的幾個問題:

          1.Nutch到底是什么?

          Nutch是一個開源的Java語言實現的搜索引擎。它通過完整功能的搜索系統。

          2.Nutch和Lucene到底是什么關系?兩者如何取舍?

          Nutch基于Lucene,Lucene為Nutch提供文本索引和搜索API。兩者的取舍問題在于Lucene不能夠為你抓取數據,所以如果在有數據源的情況下最好的方式是使用Lucene API來建立索引,完成搜索。如果需要抓取數據的話,那自然是選擇Nutch為好。

          3.Nutch的基本安裝步驟?

          這個問題有官方文檔。在這里。

          PS:似乎網絡Nutch上最多的帖子就是關于這個的.其中比較有意思的就是擺脫Cgywin的一些方法,比如利用window批處理或者利用ant.個人還是覺得ant更通用.

          4.Nutch的基本組成?

          Nutch基本上兩部分組成:抓取部分和搜索部分。抓取程序抓取頁面并將抓取回來的數據做成反向索引;搜索程序則將反向索引搜索回答用戶的請求。兩者的關聯部分在于索引。
          具體內容還需要仔細看文檔和介紹.

          5.Nutch文檔集中地?
          http://wiki.apache.org/nutch/

          補充完成,今日繼續。愚人節快樂!



          平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
          這個角色很適合現在的


          posted on 2008-04-01 16:50 過河卒 閱讀(482) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
          訪問統計:
          主站蜘蛛池模板: 那曲县| 榆林市| 剑阁县| 南漳县| 普洱| 鄢陵县| 洛南县| 金昌市| 基隆市| 云南省| 临澧县| 东明县| 高平市| 宜君县| 湖南省| 靖边县| 武平县| 琼结县| 济宁市| 元江| 松潘县| 山阴县| 东兴市| 磐石市| 镶黄旗| 许昌市| 巴青县| 长宁区| 营山县| 鄂托克旗| 沈丘县| 正阳县| 崇左市| 会理县| 加查县| 阳西县| 桐庐县| 靖江市| 兴国县| 巴林左旗| 柳林县|