隨筆-7  評論-23  文章-0  trackbacks-0
            2010年10月22日

          去年年底,團(tuán)隊(duì)內(nèi)部成員分享了這篇google論文,初讀了下,發(fā)現(xiàn)其有蠻多有意思的東西,就想把他翻譯下來,但是翻譯了一小部分,明顯感覺如果這樣的翻譯發(fā)出去,很可能誤人子弟,所以改成了概要式的博文,這篇文章會將原論文最核心的幾個部分做不完全的翻譯和個人理解,如有不解或者錯誤的地方,請查看原論文,并希望能夠指正,謝謝.

          正文

          Megastore是谷歌一個內(nèi)部的存儲系統(tǒng),它的底層數(shù)據(jù)存儲依賴Bigtable,也就是基于NoSql實(shí)現(xiàn)的,但是和傳統(tǒng)的NoSql不同的是,它實(shí)現(xiàn)了類似RDBMS的數(shù)據(jù)模型(便捷性),同時提供數(shù)據(jù)的強(qiáng)一致性解決方案(同一個datacenter,基于MVCC的事務(wù)實(shí)現(xiàn)),并且將數(shù)據(jù)進(jìn)行細(xì)顆粒度的分區(qū)(這里的分區(qū)是指在同一個datacenter,所有datacenter都有相同的分區(qū)數(shù)據(jù)),然后將數(shù)據(jù)更新在機(jī)房間進(jìn)行同步復(fù)制(這個保證所有datacenter中的數(shù)據(jù)一致).

          ...

          中文翻譯地址: http://wenku.baidu.com/view/a465cc260722192e4536f671.html#

          原文地址: http://wenku.baidu.com/view/2ddeb1afdd3383c4bb4cd2bb.html

          posted @ 2011-02-14 12:44 BucketLI 閱讀(3189) | 評論 (1)編輯 收藏

          zookeeper介紹
          zookeeper是一個為分布式應(yīng)用提供一致性服務(wù)的軟件,它是開源的Hadoop項(xiàng)目中的一個子項(xiàng)目,并且根據(jù)google發(fā)表的<The Chubby lock service for loosely-coupled distributed systems>論文來實(shí)現(xiàn)的,接下來我們首先來安裝使用下這個軟件,然后再來探索下其中比較重要一致性算法。  

          zookeeper安裝和使用
          zookeeper的安裝基本上可以按照 http://hadoop.apache.org/zookeeper/docs/current/ zookeeperStarted.html 這個頁面上的步驟完成安裝,這里主要介紹下部署一個集群的步驟,因?yàn)檫@個官方頁面似乎講得并不是非常詳細(xì)(Running Replicated Zookeeper)

          由于手頭機(jī)器不足,所以在一臺機(jī)器上部署了
          3server,如果你手頭也比較緊,也可以這么做。那么我建了3個文件夾,如下
          server1   server2   server3

          然后每個文件夾里面解壓一個
          zookeeper的下載包,并且還建了幾個文件夾,總體結(jié)構(gòu)如下,最后那個是下載過來壓縮包的解壓文件
          data dataLog logs zookeeper-3.3.2

          那么首先進(jìn)入data目錄,創(chuàng)建一個myid的文件,里面寫入一個數(shù)字,比如我這個是server1,那么就寫一個1server2對應(yīng)myid文件就寫入2server3對應(yīng)myid文件就寫個3

          然后進(jìn)入zookeeper-3.3.2/conf目錄,那么如果是剛下過來,會有3個文件,configuration.xml, log4j.properties,zoo_sample.cfg,3個文件我們首先要做的就是在這個目錄創(chuàng)建一個zoo.cfg的配置文件,當(dāng)然你可以把zoo_sample.cfg文件改成zoo.cfg,配置的內(nèi)容如下所示: 
          tickTime=2000
          initLimit=5
          syncLimit=2
          dataDir=xxxx/zookeeper/server1/data
          dataLogDir=xxx/zookeeper/server1/dataLog
          clientPort=2181
          server.1=127.0.0.1:2888:3888
          server.2=127.0.0.1:2889:3889
          server.3=127.0.0.1:2890:3890

          標(biāo)紅的幾個配置應(yīng)該官網(wǎng)講得很清楚了,只是需要注意的是clientPort這個端口如果你是在1臺機(jī)器上部署多個server,那么每臺機(jī)器都要不同的clientPort,比如我server12181,server22182server32183dataDirdataLogDir也需要區(qū)分下。

          最后幾行唯一需要注意的地方就是 server.X 這個數(shù)字就是對應(yīng) data/myid中的數(shù)字。你在3servermyid文件中分別寫入了123,那么每個server中的zoo.cfg都配server.1,server.2,server.3OK了。因?yàn)樵谕慌_機(jī)器上,后面連著的2個端口3server都不要一樣,否則端口沖突,其中第一個端口用來集群成員的信息交換,第二個端口是在leader掛掉時專門用來進(jìn)行選舉leader所用。

          進(jìn)入zookeeper-3.3.2/bin 目錄中./zkServer.sh start啟動一個server,這時會報(bào)大量錯誤?其實(shí)沒什么關(guān)系,因?yàn)楝F(xiàn)在集群只起了1serverzookeeper服務(wù)器端起來會根據(jù)zoo.cfg的服務(wù)器列表發(fā)起選舉leader的請求,因?yàn)檫B不上其他機(jī)器而報(bào)錯,那么當(dāng)我們起第二個zookeeper實(shí)例后,leader將會被選出,從而一致性服務(wù)開始可以使用,這是因?yàn)?/span>3臺機(jī)器只要有2臺可用就可以選出leader并且對外提供服務(wù)(2n+1臺機(jī)器,可以容n臺機(jī)器掛掉)

          接下來就可以使用了,我們可以先通過 zookeeper自帶的客戶端交互程序來簡單感受下zookeeper到底做一些什么事情。進(jìn)入zookeeper-3.3.2/bin3server中任意一個)下,./zkCli.sh –server 127.0.0.1:2182,我連的是開著2182端口的機(jī)器。

          那么,首先我們隨便打個命令,因?yàn)?/span>zookeeper不認(rèn)識,他會給出命令的help,如下圖
            
            
          ls(查看當(dāng)前節(jié)點(diǎn)數(shù)據(jù)),
          ls2(查看當(dāng)前節(jié)點(diǎn)數(shù)據(jù)并能看到更新次數(shù)等數(shù)據(jù)) ,
          create(創(chuàng)建一個節(jié)點(diǎn)) ,
          get(得到一個節(jié)點(diǎn),包含數(shù)據(jù)和更新次數(shù)等數(shù)據(jù)),
          set(修改節(jié)點(diǎn))
          delete(刪除一個節(jié)點(diǎn))

          通過上述命令實(shí)踐,我們可以發(fā)現(xiàn),zookeeper使用了一個類似文件系統(tǒng)的樹結(jié)構(gòu),數(shù)據(jù)可以掛在某個節(jié)點(diǎn)上,可以對這個節(jié)點(diǎn)進(jìn)行刪改。另外我們還發(fā)現(xiàn),當(dāng)改動一個節(jié)點(diǎn)的時候,集群中活著的機(jī)器都會更新到一致的數(shù)據(jù)。

          zookeeper的數(shù)據(jù)模型
          在簡單使用了zookeeper之后,我們發(fā)現(xiàn)其數(shù)據(jù)模型有些像操作系統(tǒng)的文件結(jié)構(gòu),結(jié)構(gòu)如下圖所示



          (1)     每個節(jié)點(diǎn)在zookeeper中叫做znode,并且其有一個唯一的路徑標(biāo)識,如/SERVER2節(jié)點(diǎn)的標(biāo)識就為/APP3/SERVER2
          (2)     Znode可以有子znode,并且znode里可以存數(shù)據(jù),但是EPHEMERAL類型的節(jié)點(diǎn)不能有子節(jié)點(diǎn)
          (3)     Znode中的數(shù)據(jù)可以有多個版本,比如某一個路徑下存有多個數(shù)據(jù)版本,那么查詢這個路徑下的數(shù)據(jù)就需要帶上版本。
          (4)     znode 可以是臨時節(jié)點(diǎn),一旦創(chuàng)建這個 znode 的客戶端與服務(wù)器失去聯(lián)系,這個 znode 也將自動刪除,Zookeeper 的客戶端和服務(wù)器通信采用長連接方式,每個客戶端和  服務(wù)器通過心跳來保持連接,這個連接狀態(tài)稱為 session,如果 znode 是臨時節(jié)點(diǎn),這個 session 失效,znode 也就刪除了
          (5)     znode 的目錄名可以自動編號,如 App1 已經(jīng)存在,再創(chuàng)建的話,將會自動命名為 App2 
          (6)     znode 可以被監(jiān)控,包括這個目錄節(jié)點(diǎn)中存儲的數(shù)據(jù)的修改,子節(jié)點(diǎn)目錄的變化等,一旦變化可以通知設(shè)置監(jiān)控的客戶端,這個功能是zookeeper對于應(yīng)用最重要的特性,通過這個特性可以實(shí)現(xiàn)的功能包括配置的集中管理,集群管理,分布式鎖等等。
           

          通過java代碼使用zookeeper 
          Zookeeper的使用主要是通過創(chuàng)建其jar包下的Zookeeper實(shí)例,并且調(diào)用其接口方法進(jìn)行的,主要的操作就是對znode的增刪改操作,監(jiān)聽znode的變化以及處理。 

          以下為主要的API使用和解釋

          //創(chuàng)建一個Zookeeper實(shí)例,第一個參數(shù)為目標(biāo)服務(wù)器地址和端口,第二個參數(shù)為Session超時時間,第三個為節(jié)點(diǎn)變化時的回調(diào)方法
          ZooKeeper zk = new ZooKeeper("127.0.0.1:2181"500000,new Watcher() {
                     
          // 監(jiān)控所有被觸發(fā)的事件
                       public void process(WatchedEvent event) {
                     
          //dosomething
                     }

                }
          );
          //創(chuàng)建一個節(jié)點(diǎn)root,數(shù)據(jù)是mydata,不進(jìn)行ACL權(quán)限控制,節(jié)點(diǎn)為永久性的(即客戶端shutdown了也不會消失)
          zk.create("/root""mydata".getBytes(),Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);

          //在root下面創(chuàng)建一個childone znode,數(shù)據(jù)為childone,不進(jìn)行ACL權(quán)限控制,節(jié)點(diǎn)為永久性的
          zk.create("/root/childone","childone".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.PERSISTENT);

          //取得/root節(jié)點(diǎn)下的子節(jié)點(diǎn)名稱,返回List<String>
          zk.getChildren("/root",true);

          //取得/root/childone節(jié)點(diǎn)下的數(shù)據(jù),返回byte[]
          zk.getData("/root/childone"truenull);

          //修改節(jié)點(diǎn)/root/childone下的數(shù)據(jù),第三個參數(shù)為版本,如果是-1,那會無視被修改的數(shù)據(jù)版本,直接改掉
          zk.setData("/root/childone","childonemodify".getBytes(), -1);

          //刪除/root/childone這個節(jié)點(diǎn),第二個參數(shù)為版本,-1的話直接刪除,無視版本
          zk.delete("/root/childone"-1);
                
          //關(guān)閉session
          zk.close();
           
          Zookeeper的主流應(yīng)用場景實(shí)現(xiàn)思路(除去官方示例)

          (1)
          配置管理
          集中式的配置管理在應(yīng)用集群中是非常常見的,一般商業(yè)公司內(nèi)部都會實(shí)現(xiàn)一套集中的配置管理中心,應(yīng)對不同的應(yīng)用集群對于共享各自配置的需求,并且在配置變更時能夠通知到集群中的每一個機(jī)器。

          Zookeeper
          很容易實(shí)現(xiàn)這種集中式的配置管理,比如將APP1的所有配置配置到/APP1 znode下,APP1所有機(jī)器一啟動就對/APP1這個節(jié)點(diǎn)進(jìn)行監(jiān)控(zk.exist("/APP1",true)),并且實(shí)現(xiàn)回調(diào)方法Watcher,那么在zookeeper/APP1 znode節(jié)點(diǎn)下數(shù)據(jù)發(fā)生變化的時候,每個機(jī)器都會收到通知,Watcher方法將會被執(zhí)行,那么應(yīng)用再取下數(shù)據(jù)即可(zk.getData("/APP1",false,null));

          以上這個例子只是簡單的粗顆粒度配置監(jiān)控,細(xì)顆粒度的數(shù)據(jù)可以進(jìn)行分層級監(jiān)控,這一切都是可以設(shè)計(jì)和控制的。
              
          (2)集群管理
          應(yīng)用集群中,我們常常需要讓每一個機(jī)器知道集群中(或依賴的其他某一個集群)哪些機(jī)器是活著的,并且在集群機(jī)器因?yàn)殄礄C(jī),網(wǎng)絡(luò)斷鏈等原因能夠不在人工介入的情況下迅速通知到每一個機(jī)器。

          Zookeeper
          同樣很容易實(shí)現(xiàn)這個功能,比如我在zookeeper服務(wù)器端有一個znode/APP1SERVERS,那么集群中每一個機(jī)器啟動的時候都去這個節(jié)點(diǎn)下創(chuàng)建一個EPHEMERAL類型的節(jié)點(diǎn),比如server1創(chuàng)建/APP1SERVERS/SERVER1(可以使用ip,保證不重復(fù))server2創(chuàng)建/APP1SERVERS/SERVER2,然后SERVER1SERVER2watch /APP1SERVERS這個父節(jié)點(diǎn),那么也就是這個父節(jié)點(diǎn)下數(shù)據(jù)或者子節(jié)點(diǎn)變化都會通知對該節(jié)點(diǎn)進(jìn)行watch的客戶端。因?yàn)?/span>EPHEMERAL類型節(jié)點(diǎn)有一個很重要的特性,就是客戶端和服務(wù)器端連接斷掉或者session過期就會使節(jié)點(diǎn)消失,那么在某一個機(jī)器掛掉或者斷鏈的時候,其對應(yīng)的節(jié)點(diǎn)就會消失,然后集群中所有對/APP1SERVERS進(jìn)行watch的客戶端都會收到通知,然后取得最新列表即可。

          另外有一個應(yīng)用場景就是集群選
          master,一旦master掛掉能夠馬上能從slave中選出一個master,實(shí)現(xiàn)步驟和前者一樣,只是機(jī)器在啟動的時候在APP1SERVERS創(chuàng)建的節(jié)點(diǎn)類型變?yōu)?/span>EPHEMERAL_SEQUENTIAL類型,這樣每個節(jié)點(diǎn)會自動被編號,例如          
          zk.create("/testRootPath/testChildPath1","1".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL_SEQUENTIAL);
                  
          zk.create(
          "/testRootPath/testChildPath2","2".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL_SEQUENTIAL);
                  
          zk.create(
          "/testRootPath/testChildPath3","3".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL_SEQUENTIAL);
                  
          // 創(chuàng)建一個子目錄節(jié)點(diǎn)
          zk.create("/testRootPath/testChildPath4","4".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL_SEQUENTIAL);

          System.out.println(zk.getChildren(
          "/testRootPath"false));
           打印結(jié)果:[testChildPath10000000000, testChildPath20000000001, testChildPath40000000003, testChildPath30000000002]

          zk.create("/testRootPath""testRootData".getBytes(),Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);

          // 創(chuàng)建一個子目錄節(jié)點(diǎn)
          zk.create("/testRootPath/testChildPath1","1".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL);
                  
          zk.create(
          "/testRootPath/testChildPath2","2".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL);
                  
          zk.create(
          "/testRootPath/testChildPath3","3".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL);
                  
          // 創(chuàng)建一個子目錄節(jié)點(diǎn)
          zk.create("/testRootPath/testChildPath4","4".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.EPHEMERAL);

          System.out.println(zk.getChildren(
          "/testRootPath"false));
          打印結(jié)果:[testChildPath2, testChildPath1, testChildPath4, testChildPath3]

          我們默認(rèn)規(guī)定編號最小的為
          master,所以當(dāng)我們對/APP1SERVERS節(jié)點(diǎn)做監(jiān)控的時候,得到服務(wù)器列表,只要所有集群機(jī)器邏輯認(rèn)為最小編號節(jié)點(diǎn)為master,那么master就被選出,而這個master宕機(jī)的時候,相應(yīng)的znode會消失,然后新的服務(wù)器列表就被推送到客戶端,然后每個節(jié)點(diǎn)邏輯認(rèn)為最小編號節(jié)點(diǎn)為master,這樣就做到動態(tài)master選舉。


          總結(jié) 

          我們初步使用了一下zookeeper并且嘗試著描述了幾種應(yīng)用場景的具體實(shí)現(xiàn)思路,接下來的文章,我們會嘗試著去探究一下zookeeper的高可用性與leaderElection算法。

          參考http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/

                http://hadoop.apache.org/zookeeper/docs/current/

                http://rdc.taobao.com/team/jm/archives/448

          posted @ 2010-12-21 18:58 BucketLI 閱讀(118566) | 評論 (15)編輯 收藏
               摘要:  1.       ExecutorService  Java從1.5開始正式提供了并發(fā)包,而這個并發(fā)包里面除了原子變量,synchronizer,并發(fā)容器,另外一個非常重要的特性就是線程池.對于線程池的意義,我們這邊不再多說. 上圖是線程池的主體類圖,ThreadPoolExecutor是應(yīng)用最為廣泛的一個...  閱讀全文
          posted @ 2010-12-16 13:57 BucketLI 閱讀(5071) | 評論 (0)編輯 收藏
               摘要: 1.       java.util.concurrent所提供的并發(fā)容器 java.util.concurrent提供了多種并發(fā)容器,總體上來說有4類,隊(duì)列類型的BlockingQueue和 ConcurrentLinkedQueue,Map類型的ConcurrentMap,Set類型的ConcurrentSkipListSet和Co...  閱讀全文
          posted @ 2010-11-25 13:43 BucketLI 閱讀(5171) | 評論 (3)編輯 收藏
               摘要: 最近需要用到log4j動態(tài)定制Logger的場景,然后加上以前對于這個日志工具拿來就用而不知其原理的原因,所以決定花點(diǎn)時間看下它的源碼,如果你還對log4j如何使用感到困惑,那么請首先簡要瀏覽下它的官網(wǎng)http://logging.apache.org/log4j/ Log4j總體來說是一個可定制,支持同時多種形式輸出日志,并且高度結(jié)構(gòu)化的日志庫。可定制,也就是既可以通過log4j.prop...  閱讀全文
          posted @ 2010-10-22 10:40 BucketLI 閱讀(4284) | 評論 (1)編輯 收藏
          主站蜘蛛池模板: 甘孜县| 深泽县| 甘南县| 尉犁县| 宝兴县| 遵义市| 广宗县| 汉沽区| 玉田县| 盐津县| 盐亭县| 广昌县| 阜新| 泊头市| 黄陵县| 威海市| 东台市| 鹿泉市| 始兴县| 禄劝| 黄石市| 锦州市| 尉氏县| 石屏县| 门头沟区| 周至县| 新竹县| 宿州市| 永州市| 新巴尔虎左旗| 包头市| 谷城县| 贵州省| 加查县| 思茅市| 定安县| 梧州市| 大悟县| 浙江省| 舞钢市| 同江市|