posts - 110,  comments - 152,  trackbacks - 0

          晚上花了將近兩個小時的時間,看了網絡上一些關于Nutch的介紹.
          搞明白的幾個問題:

          1.Nutch到底是什么?

          Nutch是一個開源的Java語言實現的搜索引擎。它通過完整功能的搜索系統。

          2.Nutch和Lucene到底是什么關系?兩者如何取舍?

          Nutch基于Lucene,Lucene為Nutch提供文本索引和搜索API。兩者的取舍問題在于Lucene不能夠為你抓取數據,所以如果在有數據源的情況下最好的方式是使用Lucene API來建立索引,完成搜索。如果需要抓取數據的話,那自然是選擇Nutch為好。

          3.Nutch的基本安裝步驟?

          這個問題有官方文檔。在這里。

          PS:似乎網絡Nutch上最多的帖子就是關于這個的.其中比較有意思的就是擺脫Cgywin的一些方法,比如利用window批處理或者利用ant.個人還是覺得ant更通用.

          4.Nutch的基本組成?

          Nutch基本上兩部分組成:抓取部分和搜索部分。抓取程序抓取頁面并將抓取回來的數據做成反向索引;搜索程序則將反向索引搜索回答用戶的請求。兩者的關聯部分在于索引。
          具體內容還需要仔細看文檔和介紹.

          5.Nutch文檔集中地?
          http://wiki.apache.org/nutch/

          補充完成,今日繼續。愚人節快樂!



          平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
          收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
          這個角色很適合現在的


          posted on 2008-04-01 16:50 過河卒 閱讀(480) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
          文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
          訪問統計:
          主站蜘蛛池模板: 彭州市| 安仁县| 仪陇县| 巨鹿县| 武强县| 普兰店市| 昌邑市| 涞源县| 丹阳市| 北碚区| 来凤县| 鄄城县| 含山县| 交口县| 尖扎县| 洞口县| 济宁市| 利川市| 舟曲县| 桃源县| 高清| 潮安县| 齐齐哈尔市| 房产| 金川县| 平泉县| 芒康县| 潞城市| 汤阴县| 马龙县| 德惠市| 庆元县| 广德县| 南充市| 卢氏县| 龙游县| 乡宁县| 磐安县| 彰化市| 北辰区| 阳朔县|