隨筆-23  評論-58  文章-0  trackbacks-0

          http://code.google.com/p/nutla/

          1、概述
           不管程序性能有多高,機器處理能力有多強,都會有其極限。能夠快速方便的橫向與縱向擴展是Nut設(shè)計最重要的原則,以此原則形成以分布式并行計算為核心的架構(gòu)設(shè)計。以分布式并行計算為核心的架構(gòu)設(shè)計是Nut區(qū)別于Solr、Katta的地方。

          Nut是一個Lucene+Hadoop分布式并行計算搜索框架,能對千G以上索引提供7*24小時搜索服務(wù)。在服務(wù)器資源足夠的情況下能達到每秒處理100萬次的搜索請求。
           
          Nut開發(fā)環(huán)境:jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongodb+linux


          2、特新
           a、熱插拔
           b、可擴展
           c、高負載
           d、易使用,與現(xiàn)有項目無縫集成
          e、支持排序
          f、7*24服務(wù)
          g、失敗轉(zhuǎn)移


          3、搜索流程
          Nut由Index、Search、Client、Cache和DB五部分構(gòu)成。(Cache實現(xiàn)了對memcached的支持,DB實現(xiàn)了對hbase,mongodb的支持)
          Client處理用戶請求和對搜索結(jié)果排序。Search對請求進行搜索,Search上只放索引,數(shù)據(jù)存儲在DB中,Nut將索引和存儲分離。Cache緩存的是搜索條件和結(jié)果文檔id。DB存儲著數(shù)據(jù),Client根據(jù)搜索排序結(jié)果,取出當(dāng)前頁中的文檔id從DB上讀取數(shù)據(jù)。

          用戶發(fā)起搜索請求給由Nut Client構(gòu)成的集群,由某個Nut Client根據(jù)搜索條件查詢Cache服務(wù)器是否有該緩存,如果有緩存根據(jù)緩存的文檔id直接從DB讀取數(shù)據(jù),如果沒有緩存將隨機選擇一組搜索服務(wù)器組(Search Group i),將查詢條件同時發(fā)給該組搜索服務(wù)器組里的n臺搜索服務(wù)器,搜索服務(wù)器將搜索結(jié)果返回給Nut Client由其排序,取出當(dāng)前頁文檔id,將搜索條件和當(dāng)前文檔id緩存,同時從DB讀取數(shù)據(jù)。

           

           4、索引流程
          Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發(fā)到各個索引服務(wù)器。
          對索引的更新分為兩種:刪除和添加(更新分解為刪除和添加)。
          a、刪除
          在HDFS上刪除索引,將生成的*.del文件分發(fā)到所有的索引服務(wù)器上去或者對HDFS索引目錄刪除索引再分發(fā)到對應(yīng)的索引服務(wù)器上去。
          b、添加
          新添加的數(shù)據(jù)用另一臺服務(wù)器來生成。
          刪除和添加步驟可按不同定時策略來實現(xiàn)。


          5、Nut分布式并行計算特點
          Nut分布式并行計算雖然也是基于M/R模型,但是與Hadoop M/R模型是不同的。在Hadoop M/R模型中 Mapper和Reducer是一個完整的流程,Reducer依賴于Mapper。數(shù)據(jù)源通過Mapper分發(fā)本身就會消耗大量的I/O,并且是消耗I/O最大的部分。所以Hadoop M/R 并發(fā)是有限的。
          Nut M/R模型是將Mapper和Reducer分離,各自獨立存在。在Nut中 索引以及索引管理 構(gòu)成M,搜索以及搜索服務(wù)器組 構(gòu)成 R。
          以一個分類統(tǒng)計來說明Nut分布式并行計算的流程。假設(shè)有10個分類,對任意關(guān)鍵詞搜索要求統(tǒng)計出該關(guān)鍵詞在這10個分類中的總數(shù)。同時假設(shè)有10組搜索服務(wù)器。索引以及索引管理進行索引數(shù)據(jù)的Mapper,這塊是后臺獨自運行管理的。Nut Client將這10個分類統(tǒng)計分發(fā)到10組搜索服務(wù)器上,每組搜索服務(wù)器對其中一個分類進行Reducer,并且每組搜索服務(wù)器可進行多級Reducer。最后將最終結(jié)果返回給Nut Client。

           

           6、設(shè)計圖

           

           

             
          7、Zookeeper服務(wù)器狀態(tài)管理策略

            

            

          在架構(gòu)設(shè)計上通過使用多組搜索服務(wù)器可以支持每秒處理100萬個搜索請求。
          每組搜索服務(wù)器能處理的搜索請求數(shù)在1萬—1萬5千之間。如果使用100組搜索服務(wù)器,理論上每秒可處理100萬個搜索請求。


          假如每組搜索服務(wù)器有100份索引放在100臺正在運行中搜索服務(wù)器(run)上,那么將索引按照如下的方式放在備用中搜索服務(wù)器(bak)上:index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上,index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺備用搜索服務(wù)器上。那么每份索引會存在3臺機器中(1份正在運行中,2份備份中)。
          盡管這樣設(shè)計每份索引會存在3臺機器中,仍然不是絕對安全的。假如運行中的index 1,index 2,index 3同時宕機的話,那么就會有一份索引搜索服務(wù)無法正確啟用。這樣設(shè)計,作者認為是在安全性和機器資源兩者之間一個比較適合的方案。

          備用中的搜索服務(wù)器會定時檢查運行中搜索服務(wù)器的狀態(tài)。一旦發(fā)現(xiàn)與自己索引對應(yīng)的服務(wù)器宕機就會向lock申請分布式鎖,得到分布式鎖的服務(wù)器就將自己加入到運行中搜索服務(wù)器組,同時從備用搜索服務(wù)器組中刪除自己,并停止運行中搜索服務(wù)器檢查服務(wù)。

          為能夠更快速的得到搜索結(jié)果,設(shè)計上將搜索服務(wù)器分優(yōu)先等級。通常是將最新的數(shù)據(jù)放在一臺或幾臺內(nèi)存搜索服務(wù)器上。通常情況下前幾頁數(shù)據(jù)能在這幾臺搜索服務(wù)器里搜索到。如果在這幾臺搜索服務(wù)器上沒有數(shù)據(jù)時再向其他舊數(shù)據(jù)搜索服務(wù)器上搜索。
          優(yōu)先搜索等級的邏輯是這樣的:9最大為搜索全部服務(wù)器并且9不能作為level標(biāo)識。當(dāng)搜索等級level為1,搜索優(yōu)先級為1的服務(wù)器,當(dāng)level為2時搜索優(yōu)先級為1和2的服務(wù)器,依此類推。

          posted on 2011-02-17 13:20 nianzai 閱讀(5395) 評論(9)  編輯  收藏 所屬分類: Nut(lucene + hadoop 分布式并行計算框架)

          評論:
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-02-17 13:22 | 凡客成品123336
          很好1234  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-02-17 22:33 | 穿越言情小說
          盡管這樣設(shè)計每份索引會存在3臺機器中,仍然不是絕對安全的。假如運行中的index 1,index 2,index 3同時宕機的話,那么就會有一份索引搜索服務(wù)無法正確啟用。這樣設(shè)計,作者認為是在安全性和機器資源兩者之間一個比較適合的方案。

          備用中的搜索服務(wù)器會定時檢查運行中搜索服務(wù)器的狀態(tài)。一旦發(fā)現(xiàn)與自己索引對應(yīng)的服務(wù)器宕機就會向lock申請分布式鎖,得到分布式鎖的服務(wù)器就將自己加入到運行中搜索服務(wù)器組,同時從備用搜索服務(wù)器組中刪除自己,并停止運行中搜索服務(wù)器檢查服務(wù)。

          為能夠更快速的得到搜索結(jié)果,設(shè)計上將搜索服務(wù)器分優(yōu)先等級。通常是將最新的數(shù)據(jù)放在一臺或幾臺內(nèi)存搜索服務(wù)器上。通常情況下前幾頁數(shù)據(jù)能在這幾臺搜索服務(wù)器里搜索到。如果在這幾臺搜索服務(wù)器上沒有數(shù)據(jù)時再向其他舊數(shù)據(jù)搜索服務(wù)器上搜索。
          優(yōu)先搜索等級的邏輯是這樣的:9最大為搜索全部服務(wù)器并且9不能作為level標(biāo)識。當(dāng)搜索等級level為1,搜索優(yōu)先級為1的服務(wù)器,當(dāng)level為2時搜索優(yōu)先級為1和2的服務(wù)器,依此類推。  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-02-20 16:48 | 幫我淘
          看上去很不錯,不知道能承載千萬PV級的訪問量不?  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-02-21 10:11 | qiu768
          這個框架有沒有實際運用在項目中?有沒有成功的案例,這個是我最關(guān)心的。  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-03-17 17:36 | Lucene
          這個真的是Lucene的分布式應(yīng)用么?但從單個節(jié)點的lucene使用來看,貌似性能問題很嚴(yán)重。  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-03-21 11:47 | nianzai
          呵呵,測試代碼有個 Thread.sleep(8*1000); 這是等待初始化的,所以容易誤解為搜索時間很長.  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-04-16 00:25 | coco
          nut對lucene生成所有索引文件進行分布式檢索時,是不是用了map/reduce對索引文件進行并行處理呢,如果是的話,通過nut生成索引時,應(yīng)該要對底層lucene生成索引代碼進行修改吧,  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-04-25 07:57 | Crawler
          只能基于Linux進行開發(fā)嗎?可以在其他平臺就行開發(fā)嗎?不知道博主能不能給個小實例~感覺這個挺不錯的,最好在配個實例~謝謝博主分享了  回復(fù)  更多評論
            
          # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 2011-05-29 02:46 | siek
          類似nutch,就是添加 了zk,mem...
          有待觀察。。   回復(fù)  更多評論
            
          主站蜘蛛池模板: 文山县| 永泰县| 沐川县| 辽宁省| 嵊州市| 兰州市| 昌平区| 呼玛县| 西青区| 介休市| 张家界市| 沁源县| 营山县| 沙坪坝区| 湄潭县| 马尔康县| 安乡县| 宜章县| 建湖县| 桂阳县| 盱眙县| 金昌市| 乐山市| 武夷山市| 隆化县| 甘孜县| 安泽县| 东源县| 安阳县| 卓尼县| 通榆县| 白山市| 大新县| 明溪县| 龙陵县| 枣强县| 靖宇县| 丹阳市| 北票市| 赣州市| 顺昌县|