隨筆-23  評(píng)論-58  文章-0  trackbacks-0
          http://code.google.com/p/nutla/

          1、概述
           只為lucene提供分布式搜索框架。7*24千G以上索引文件支持?jǐn)?shù)千萬(wàn)級(jí)的用戶(hù)搜索訪(fǎng)問(wèn)。
           Nut開(kāi)發(fā)環(huán)境:jdk1.6.0.21+lucene3.0.2+eclipse3.6+hadoop0.20.2+zookeeper3.3.1+linux

          2、特新
           a、熱插拔
           b、可擴(kuò)展
           c、高負(fù)載
           d、易使用,與現(xiàn)有項(xiàng)目無(wú)縫集成
          e、支持排序
          f、7*24服務(wù)
          g、失敗轉(zhuǎn)移

          3、搜索流程
          Nut由Index、Search、Client、Cache和DB五部分構(gòu)成。
          Client處理用戶(hù)請(qǐng)求和對(duì)搜索結(jié)果排序。Search對(duì)請(qǐng)求進(jìn)行搜索,Search上只放索引,數(shù)據(jù)存儲(chǔ)在DB中,Nut將索引和存儲(chǔ)分離。Cache緩存的是搜索條件和結(jié)果文檔id。DB存儲(chǔ)著數(shù)據(jù),Client根據(jù)搜索排序結(jié)果,取出當(dāng)前頁(yè)中的文檔id從DB上讀取數(shù)據(jù)。

          用戶(hù)發(fā)起搜索請(qǐng)求給由Nut Client構(gòu)成的集群,由某個(gè)Nut Client根據(jù)搜索條件查詢(xún)Cache服務(wù)器是否有該緩存,如果有緩存根據(jù)緩存的文檔id直接從DB讀取數(shù)據(jù),如果沒(méi)有緩存將查詢(xún)條件同時(shí)發(fā)給后面的n臺(tái)搜索服務(wù)器,搜索服務(wù)器將搜索結(jié)果返回給Nut Client由其排序,取出當(dāng)前頁(yè)文檔id,將搜索條件和當(dāng)前文檔id緩存,同時(shí)從DB讀取數(shù)據(jù)。

          4、索引流程
          Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發(fā)到各個(gè)索引服務(wù)器。
          對(duì)索引的更新分為兩種:刪除和添加(更新分解為刪除和添加)。
          a、刪除
          在HDFS上刪除索引,將生成的*.del文件分發(fā)到所有的索引服務(wù)器上去或者對(duì)HDFS索引目錄刪除索引再分發(fā)到對(duì)應(yīng)的索引服務(wù)器上去。
          b、添加
          新添加的數(shù)據(jù)用另一臺(tái)服務(wù)器來(lái)生成。
          刪除和添加步驟可按不同定時(shí)策略來(lái)實(shí)現(xiàn)。

           


          5、Zookeeper服務(wù)器狀態(tài)管理策略


          假如我們有100份索引放在100臺(tái)正在運(yùn)行中搜索服務(wù)器上,那么將索引按照如下的方式放在備用中搜索服務(wù)器上:index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上,index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺(tái)備用搜索服務(wù)器上。那么每份索引會(huì)存在3臺(tái)機(jī)器中(1份正在運(yùn)行中,2份備份中)。
          盡管這樣設(shè)計(jì)每份索引會(huì)存在3臺(tái)機(jī)器中,仍然不是絕對(duì)安全的。假如運(yùn)行中的index 1,index 2,index 3同時(shí)宕機(jī)的話(huà),那么就會(huì)有一份索引搜索服務(wù)無(wú)法正確啟用。那么這樣設(shè)計(jì),作者認(rèn)為是在安全性和機(jī)器資源兩者之間一個(gè)比較適合的方案。

          備用中的搜索服務(wù)器會(huì)定時(shí)檢查運(yùn)行中搜索服務(wù)器的狀態(tài)。一旦發(fā)現(xiàn)與自己索引對(duì)應(yīng)的服務(wù)器宕機(jī)就會(huì)先向zookeeper申請(qǐng)分布式鎖,得到鎖的服務(wù)器就將自己加入到運(yùn)行中搜索服務(wù)器組,同時(shí)從備用搜索服務(wù)器組中刪除自己,并停止運(yùn)行中搜索服務(wù)器檢查服務(wù)。

          posted on 2010-09-25 15:41 nianzai 閱讀(2737) 評(píng)論(4)  編輯  收藏 所屬分類(lèi): Nut(lucene + hadoop 分布式并行計(jì)算框架)

          評(píng)論:
          # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a7 2010-10-12 13:51 | gogogo45
          有一個(gè)問(wèn)題想請(qǐng)教一下,lucene的文檔得分算法中有一個(gè)反轉(zhuǎn)文檔頻率參數(shù),
          是由org.apache.lucene.search.DefaultSimilarity.java:70
          idf(int docFreq, int numDocs) 得出的。
          docFreq表示有當(dāng)前檢索詞條的文檔總數(shù), numDocs索引中總共的文檔數(shù)量

          如果按照您設(shè)計(jì)的將索引分散在多個(gè)服務(wù)器上,這兩個(gè)值都只是當(dāng)前機(jī)子文檔的數(shù)量,是否會(huì)對(duì)搜索的結(jié)果造成一些不好的影響呢?  回復(fù)  更多評(píng)論
            
          # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a7[未登錄](méi) 2010-10-13 09:06 | nianzai
          是的,nut目前還不能實(shí)現(xiàn)全局評(píng)分,以后可能會(huì)做一個(gè)可選的。如果實(shí)現(xiàn)全局評(píng)分的話(huà),并發(fā)會(huì)下降一半的
            回復(fù)  更多評(píng)論
            
          # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a7[未登錄](méi) 2010-10-13 11:49 | nianzai
          全局評(píng)分的實(shí)現(xiàn)大概是這樣的:
          每次搜索要分二次。第一次搜索得到文檔總數(shù)和文檔詞頻。第二次搜索再將第一次搜索的結(jié)果作為參數(shù)。
          所以并發(fā)必定會(huì)下降一半的。

          這種方式并不好。作者認(rèn)為比較好的方式是按內(nèi)容切分索引。這樣兩者都能有比較好的兼顧。nut在下一個(gè)版本alpha8時(shí),會(huì)采用這種方式。  回復(fù)  更多評(píng)論
            
          # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a7 2010-10-14 16:50 | gogogo45
          是啊。感覺(jué)Lucene在這方面似乎沒(méi)有做到支持超大規(guī)模的數(shù)據(jù)量。
          或許能通過(guò)改造Lucene底層的index生成方法來(lái)達(dá)到目的,不過(guò)那種生成就針對(duì)具體的項(xiàng)目而言了  回復(fù)  更多評(píng)論
            
          主站蜘蛛池模板: 乐山市| 建宁县| 崇阳县| 安康市| 闸北区| 晴隆县| 托克逊县| 疏附县| 偏关县| 东莞市| 神池县| 山西省| 通许县| 台山市| 土默特右旗| 墨脱县| 神池县| 和硕县| 万山特区| 都匀市| 新乡市| 抚宁县| 崇信县| 罗甸县| 漠河县| 大关县| 南陵县| 新民市| 南木林县| 林州市| 凤庆县| 灵丘县| 镇江市| 成都市| 苗栗市| 化德县| 芦溪县| 醴陵市| 当雄县| 安多县| 新乐市|