posts - 110,  comments - 152,  trackbacks - 0

          晚上花了將近兩個小時的時間,看了網絡上一些關于Nutch的介紹.
          搞明白的幾個問題:

          1.Nutch到底是什么?

          Nutch是一個開源的Java語言實現的搜索引擎。它通過完整功能的搜索系統。

          2.Nutch和Lucene到底是什么關系?兩者如何取舍?

          Nutch基于Lucene,Lucene為Nutch提供文本索引和搜索API。兩者的取舍問題在于Lucene不能夠為你抓取數據,所以如果在有數據源的情況下最好的方式是使用Lucene API來建立索引,完成搜索。如果需要抓取數據的話,那自然是選擇Nutch為好。

          3.Nutch的基本安裝步驟?

          這個問題有官方文檔。在這里。

          PS:似乎網絡Nutch上最多的帖子就是關于這個的.其中比較有意思的就是擺脫Cgywin的一些方法,比如利用window批處理或者利用ant.個人還是覺得ant更通用.

          4.Nutch的基本組成?

          Nutch基本上兩部分組成:抓取部分和搜索部分。抓取程序抓取頁面并將抓取回來的數據做成反向索引;搜索程序則將反向索引搜索回答用戶的請求。兩者的關聯部分在于索引。
          具體內容還需要仔細看文檔和介紹.

          5.Nutch文檔集中地?
          http://wiki.apache.org/nutch/

          補充完成,今日繼續。愚人節快樂!



          平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
          這個角色很適合現在的


          posted on 2008-04-01 16:50 過河卒 閱讀(488) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
          訪問統計:
          主站蜘蛛池模板: 依安县| 个旧市| 纳雍县| 四川省| 大方县| 江西省| 张家港市| 达拉特旗| 灵石县| 郧西县| 安宁市| 海伦市| 衡阳县| 旬阳县| 洛南县| 吉木乃县| 河津市| 时尚| 澳门| 贵阳市| 庆元县| 梅河口市| 蛟河市| 昔阳县| 汉沽区| 伊宁市| 马山县| 朝阳县| 凤翔县| 桐庐县| 壤塘县| 吴江市| 温泉县| 沾化县| 南宁市| 古浪县| 龙泉市| 泗水县| 平凉市| 冀州市| 庆云县|