隨筆-23  評論-58  文章-0  trackbacks-0
          http://code.google.com/p/nutla/

          1、概述
           只為lucene提供分布式搜索框架。7*24千G以上索引文件支持數千萬級的用戶搜索訪問。
           Nut開發環境:jdk1.6.0.21+lucene3.0.2+eclipse3.6+hadoop0.20.2+zookeeper3.3.1+linux

          2、特新
           a、熱插拔
           b、可擴展
           c、高負載
           d、易使用,與現有項目無縫集成
          e、支持排序
          f、7*24服務
          g、失敗轉移

          3、搜索流程
          Nut由Index、Search、Client、Cache和DB五部分構成。
          Client處理用戶請求和對搜索結果排序。Search對請求進行搜索,Search上只放索引,數據存儲在DB中,Nut將索引和存儲分離。Cache緩存的是搜索條件和結果文檔id。DB存儲著數據,Client根據搜索排序結果,取出當前頁中的文檔id從DB上讀取數據。

          用戶發起搜索請求給由Nut Client構成的集群,由某個Nut Client根據搜索條件查詢Cache服務器是否有該緩存,如果有緩存根據緩存的文檔id直接從DB讀取數據,如果沒有緩存將查詢條件同時發給后面的n臺搜索服務器,搜索服務器將搜索結果返回給Nut Client由其排序,取出當前頁文檔id,將搜索條件和當前文檔id緩存,同時從DB讀取數據。

          4、索引流程
          Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發到各個索引服務器。
          對索引的更新分為兩種:刪除和添加(更新分解為刪除和添加)。
          a、刪除
          在HDFS上刪除索引,將生成的*.del文件分發到所有的索引服務器上去或者對HDFS索引目錄刪除索引再分發到對應的索引服務器上去。
          b、添加
          新添加的數據用另一臺服務器來生成。
          刪除和添加步驟可按不同定時策略來實現。

           


          5、Zookeeper服務器狀態管理策略


          假如我們有100份索引放在100臺正在運行中搜索服務器上,那么將索引按照如下的方式放在備用中搜索服務器上:index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上,index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺備用搜索服務器上。那么每份索引會存在3臺機器中(1份正在運行中,2份備份中)。
          盡管這樣設計每份索引會存在3臺機器中,仍然不是絕對安全的。假如運行中的index 1,index 2,index 3同時宕機的話,那么就會有一份索引搜索服務無法正確啟用。那么這樣設計,作者認為是在安全性和機器資源兩者之間一個比較適合的方案。

          備用中的搜索服務器會定時檢查運行中搜索服務器的狀態。一旦發現與自己索引對應的服務器宕機就會先向zookeeper申請分布式鎖,得到鎖的服務器就將自己加入到運行中搜索服務器組,同時從備用搜索服務器組中刪除自己,并停止運行中搜索服務器檢查服務。

          posted on 2010-09-25 15:41 nianzai 閱讀(2736) 評論(4)  編輯  收藏 所屬分類: Nut(lucene + hadoop 分布式并行計算框架)

          評論:
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7 2010-10-12 13:51 | gogogo45
          有一個問題想請教一下,lucene的文檔得分算法中有一個反轉文檔頻率參數,
          是由org.apache.lucene.search.DefaultSimilarity.java:70
          idf(int docFreq, int numDocs) 得出的。
          docFreq表示有當前檢索詞條的文檔總數, numDocs索引中總共的文檔數量

          如果按照您設計的將索引分散在多個服務器上,這兩個值都只是當前機子文檔的數量,是否會對搜索的結果造成一些不好的影響呢?  回復  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7[未登錄] 2010-10-13 09:06 | nianzai
          是的,nut目前還不能實現全局評分,以后可能會做一個可選的。如果實現全局評分的話,并發會下降一半的
            回復  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7[未登錄] 2010-10-13 11:49 | nianzai
          全局評分的實現大概是這樣的:
          每次搜索要分二次。第一次搜索得到文檔總數和文檔詞頻。第二次搜索再將第一次搜索的結果作為參數。
          所以并發必定會下降一半的。

          這種方式并不好。作者認為比較好的方式是按內容切分索引。這樣兩者都能有比較好的兼顧。nut在下一個版本alpha8時,會采用這種方式。  回復  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7 2010-10-14 16:50 | gogogo45
          是啊。感覺Lucene在這方面似乎沒有做到支持超大規模的數據量。
          或許能通過改造Lucene底層的index生成方法來達到目的,不過那種生成就針對具體的項目而言了  回復  更多評論
            
          主站蜘蛛池模板: 黄大仙区| 青铜峡市| 泸西县| 红桥区| 前郭尔| 措美县| 西盟| 漳浦县| 德州市| 阿克苏市| 枞阳县| 苏州市| 新巴尔虎左旗| 大厂| 平安县| 宁陕县| 思南县| 湖北省| 彭州市| 茌平县| 石狮市| 灵寿县| 邵阳县| 长汀县| 新巴尔虎右旗| 循化| 贵港市| 望都县| 洛扎县| 高碑店市| 沙坪坝区| 兰溪市| 鄄城县| 黔西县| 牟定县| 安西县| 托克托县| 许昌县| 富顺县| 江永县| 汝城县|