色综合激情久久,av成人 com a,久久丁香综合五月国产三级网站

分布式事�?一)�Q�Two-phase commit & Three-phase commit

Programmers — Tue, 22 Dec 2009 15:01:00 GMT

Two-phase commit(http://en.wikipedia.org/wiki/Two-phase_commit_protocol)是分布式事务最基础的协议，Three-phase commit(http://en.wikipedia.org/wiki/Three-phase_commit_protocol)主要解决Two-phase commit中协调者宕机问题�?/font>

Two-phase commit的算法实�?(from <>)�Q?/font>

协调�?Coordinator)�Q?/font>

write START_2PC to local log;

multicast VOTE_REQUEST to all participants;

while not all votes have been collected {

wait for any incoming vote;

if timeout {

write GLOBAL_ABORT to local log;

multicast GLOBAL_ABORT to all participants;

exit;

}

record vote;

}

if all participants sent VOTE_COMMIT and coordinator votes COMMIT {

write GLOBAL_COMMIT to local log;

multicast GLOBAL_COMMIT to all participants;

} else {

write GLOBAL_ABORT to local log;

multicast GLOBAL_ABORT to all participants;

}

参与�?Participants)

write INIT to local log;

wait for VOTE_REQUEST from coordinator;

if timeout {

write VOTE_ABORT to local log;

exit;

}

if participant votes COMMIT {

write VOTE_COMMIT to local log;

send VOTE_COMMIT to coordinator;

wait for DECISION from coordinator;

if timeout {

multicast DECISION_REQUEST to other participants;

wait until DECISION is received; /* remain blocked*/

write DECISION to local log;

}

if DECISION == GLOBAL_COMMIT

write GLOBAL_COMMIT to local log;

else if DECISION == GLOBAL_ABORT

write GLOBAL_ABORT to local log;

} else {

write VOTE_ABORT to local log;

send VOTE_ABORT to coordinator;

}

另外�Q�每个参与者维护一个线�E�专门处理其它参与者的DECISION_REQUEST��h��Q�处理线�E�流�E�如下：

while true {

wait until any incoming DECISION_REQUEST is received;

read most recently recorded STATE from the local log;

if STATE == GLOBAL_COMMIT

send GLOBAL_COMMIT to requesting participant;

else if STATE == INIT or STATE == GLOBAL_ABORT;

send GLOBAL_ABORT to requesting participant;

else

skip; /* participant remains blocked */

}

从上�q�的协调者与参与者的��程可以看出�Q�如果所有参与者VOTE_COMMIT后协调者宕机，�q�个时候每个参与者都无法单独军_��全局事务的最�l�结�?GLOBAL_COMMIT�q�是GLOBAL_ABORT)�Q�也无法从其它参与者获取，整个事务一直阻塞到协调者恢复；如果协调者出现类似磁盘坏�q�种�怹�性错误，该事务将成�ؓ被永久遗弃的孤儿。问题的解决有如下思�\�Q?/p>

1. 协调者持久化数据定期备䆾。�ؓ了防止协调者出现永久性错误，�q�是一�U�代��h��的解决�Ҏ��Q�不�Ҏ��引入bug�Q�但是事务被��d��的时间可能特别长�Q�比较适合银行�q�种正确性高于一切的�pȝ��?/p>

2. Three-phase Commit。这是理��Z��的一�U�方法，实现��h��复杂且效率低。思�\如下�Q�假讑֏�与者机器不可能出现��过一半同时宕机的情况�Q�如果协调者宕机，我们需要从�zȝ��的超�q�一半的参与者中得出事务的全局�l�果。由于不可能知道已经宕机的参与者的状态，所以引入一个新的参与者状态PRECOMMIT�Q�参与者成功执行一个事务需要经�q�INIT, READY, PRECOMMIT�Q�最后到COMMIT状态；如果臛_��有一个参与者处于PRECOMMIT或者COMMIT�Q�事务成功；如果臛_��一个参与者处于INIT或者ABORT�Q�事务失败；如果所有的参与者都处于READY(臛_��一半参与者活着)�Q�事务失败，即��原先宕机的参与者恢复后处于PRECOMMIT状态，也会因�ؓ有其它参与者处于ABORT状态而回滚。PRECOMMIT状态的引入�l�了宕机的参与者回滚机会，所以Three-phase commit在超�q�一半的参与者活着的时候是不阻塞的。不�q�，Three-phase Commit只能��是是理��Z��的探索，效率低�ƈ且没有解决网�l�分区问题�?/p>

3. Paxos解决协调者单炚w��题。Jim Gray和Lamport合作了一��论文讲�q�个�Ҏ��Q�很适合互联�|�公司的��大规模集群�Q�Google的Megastore事务��是�q�样实现的，不过问题在于Paxos和Two-phase Commit都不��单，需要有比较靠谱�Q�代码质量高�Q�的��团队设计和�~�码才行。后�l�的blog��详�l�阐�q�该�Ҏ��?/p>

��M��Q�分布式事务只能是系�l�开发者的乌托邦式理想�Q�Two-phase commit的介入将��D��涉及多台机器的事务之间完全串行，没有代�h的分布式事务是不存在的�?/font>

Programmers 2009-12-22 23:01 发表评论

再说Bigtable replication

Programmers — Fri, 18 Dec 2009 14:05:00 GMT

前面我的一��文�?a >http://hi.baidu.com/knuthocean/blog/item/12bb9f3dea0e400abba1673c.html引用了对Google App Engine工程师关于Bigtable/Megastore replication的文章。当时留下了很多疑问�Q�比如：��Z��么Google Bigtable 是按照column family�U�别而不是按行执行replication的？今天重新思考了Bigtable replication问题�Q�有如下体会�Q?/p>

1. Bigtable/GFS的设计属于分层设计，和文件系�l?数据库分层设计原理一��_��通过�pȝ��隔离解决工程上的问题。这�U�分层设计带来了两个问题�Q�一个是性能问题�Q�另外一个就是Replication问题。由于存储节点和服务节点可能不在一台机器，理论上��L��存在性能问题�Q�这��p��求我们在加蝲/�q�移Bigtable子表(Bigtable tablet)的时候考虑本地化因素；另外�Q�GFS有自��q��replication机制保证存储的可靠性，Bigtable通过分离服务节点和存储节点获得了很大的灵�z�L��，且Bigtable的宕机恢复时间可以做到很短。对于很多对实时性要求不是特别高的应用Bigtable�׃��服务节点同时只有一个，既节�U�资源又避免了单炚w��题。然后，Bigtable tablet服务�q�于灉|��D��replication做�v来极其困难。比如，tablet的分裂和合�ƈ机制��D��多个tablet(一个只写，其它只读)服务同一�D�范围的数据变得几乎不可能�?/p>

2. Google replication分�ؓ两种机制�Q�基于客��L��和基于Tablet Server。分�q�如下：

2-1). ��Z��客户端的replication。这�U�机制比较简单，实现如下�Q�客��L��?写操作均为异步操作，每个写操作都��试写两个Bigtable集群�Q��Q何一个写成功��p��回用��P��客户端维护一个retry list�Q�不断重试失败的写操作。读操作发到两个集群�Q��Q何一个集��读取成功均可。然后，�q�样做有两个问题�Q?/p>

a. 客户端不可靠�Q�可能因为各�U�问题，包括�E�序问题退出，retry list丢失��D��两个集群的数据不一��_��

b. 多个客户端�ƈ发操作时无法保证��序性。集��A收到的写操作可能�?DEL item; PUT item"�Q�集��B的可能是"PUT item; DEL item"�?/p>

2-2). ��Z��Tablet Server的replication。这�U�机制实现较为复杂，目的是�ؓ了保证读服务�Q�写操作的�g时仍然可能比较长。两个集��，一个�ؓ主集��，提供�?写服务；一个�ؓslave集群�Q�提供只��L��务，两个集群�l�持最�l�一致性。对于一般的��L��作，��量��d��主集��，如果主集��不可以讉K��则读取slave集群�Q�对于写操作�Q�首先将写操作提交到主集��的Tablet Server�Q�主集群的Tablet Server�l�护slave集群的元数据信息�Q��ƈ�l�护一个后台线�E�不断地��积攒的用户表格写操作提交到slave集群�q�行日志回放(group commit)。对于一般的tablet�q�移�Q�操作逻辑和Bigtable论文中的完全一��_��主集��如果发生了机器宕机�Q�则除了回放commit log外，�q�需要完成宕机的Tablet Server遗留的后台备份�Q务。之所以要按照column family�U�别而不是按行复�Ӟ��是�ؓ了提高压�~�率从而提高备份效率。如果主集群写操作日志的压羃率大于备份数据的压羃率，则可能出现备份不及时�Q�待备䆾数据��来��多的问题�?/p>

假设集群A��Z��集群�Q�集��B是集��A的备份，集群切换时先停止集群A的写服务�Q�将集群A余下的备份�Q务备份到集群B后切换到集群B�Q�如果集��A不可讉K��的时间不可预知，可以选择直接切换到集��B�Q�这样会带来一致性问题。且�׃��Bigtable是按列复制的�Q�最后写入的一些行的事务性无法保证。不�q�由于写操作数据�q�是保存在集��A的，所以用户可以知道丢了哪些数据，很多应用可以通过重新执行A集群遗留的写操作�q�行��N��恢复。Google的App Engine也提供了�q�种查询及重做丢��q��写操作的工具�?/p>

��x��不成熟，有问题联�p�：knuthocean@163.com

Programmers 2009-12-18 22:05 发表评论

Dynamo(�?�Q�Dynamo优化及优�~�点

Programmers — Sat, 05 Dec 2009 07:19:00 GMT

负蝲�q��{�略

Dynamo的负载��^衡取决于如何�l�每台机器分配虚拟节点号。由于集��环境的异构性，每台物理机器包含多个虚拟节点。一般有如下两种分配节点��L��Ҏ��Q?/p>

1. 随机分配。每台物理节点加入时�Ҏ��光��|�情况随机分配S个Token(节点�?。这�U�方法的负蝲�q��效果�q�是不错的，因�ؓ自然界的数据大致是比较随机的�Q�虽然可能出现某�D�范围的数据特别多的情况�Q�如baidu, sina�{�域名下的网��늉�别多�Q�，但是只要切分��_��l�，即S��_��大，负蝲�q�是比较均衡的。这个方法的问题是可控性较差，新节点加�?��d��pȝ��Ӟ��集群中的原有节点都需要扫描所有的数据从而找出属于新节点的数据，Merkle Tree也需要全部更斎ͼ�另外�Q�增量归�?备䆾变得几乎不可能�?/p>

2. 数据范围�{�分+随机分配。�ؓ了解��x��?的问题，首先��数据的Hash�I�间�{�分为Q = N * S�?(N=机器个数�Q�S=每台机器的虚拟节�Ҏ��Q�，然后每台机器随机选择S个分割点作�ؓToken。和�Ҏ��1一��P��q�种�Ҏ��的负载也比较均衡�Q�且每台机器都可以对属于每个范围的数据维护一个逻辑上的Merkle Tree�Q�新节点加入/��d��时只需扫描部分数据�q�行同步�Q��ƈ更新�q�部分数据对应的逻辑Merkle Tree�Q�增量归��也变得��单。该�Ҏ��的一个问题是�Ҏ��器规模需要做出比较合适的预估�Q�随着业务量的增长�Q�可能需要重新对数据�q�行划分�?/p>

不管采用哪种�Ҏ��Q�Dynamo的负载��^衡效果还是值得担心的�?/p>

客户端缓存及前后��C�Q务资源分�?/strong>

客户端缓存机器信息可以减��一�ơ在DHT中定位目标机器的�|�络交互。由于客��L��数量不可控，�q�里�~�存采用客户端pull的方式更斎ͼ�Dynamo中每�?0s或者读/写操作发现缓存信息不一致时客户端更��C��ơ缓存信息�?/p>
Dynamo中同步操作、写操作重试�{�后��C�Q务较多，��Z��不媄响正常的��d��服务�Q�需要对后台��d��能够使用的资源做出限制。Dynamo中维护一个资源授权系�l�。该�pȝ��整个机器的资源切分成多个片�Q�监�?0s内的��盘��d��响应旉��Q�事务超时时间及锁冲�H�情况，�Ҏ��监控信息��出机器负蝲从而动态调整分配给后台��d��的资源片个数�?/p>
Dynamo的优�?/strong>

1. 设计��单，�l�合利用P2P的各�U�成熟技术，模块划分好，代码复用�E�度高�?/p>
2. 分布式逻辑与单机存储引擎逻辑基本隔离。很多公司有自己的单机存储引擎，可以借鉴Dynamo的思想加入分布式功能�?/p>
3. NWR�{�略可以�Ҏ��应用自由调整�Q�这个思想已经被Google借鉴到其下一代存储基��设施中�?/p>
4. 设计上天然没有单点，且基本没有对�pȝ��旉��一致性的依赖。而在Google的单Master设计中，Master是单点，需要引入复杂的分布式锁机制来解冻I��且Lease机制需要对机器间时钟同步做出假设�?/p>
Dynamo的缺�?/strong>

1. 负蝲�q��相比单Master设计较不可控�Q�负载��^衡策略一般需要预估机器规模，不能无缝地适应业务动态增�ѝ�?/p>
2. �pȝ��的扩展性较差。由于增加机器需要给机器分配DHT��法所需的编��P��操作复杂度较高，且每台机器存储了整个集群的机器信息及数据文�g的Merkle Tree信息�Q�机器最大规模只能到几千台�?/p>
3. 数据一致性问题。多个客��L��的写操作有顺序问题，而在GFS中可以通过只允许Append操作得到一个比较好的一致性模型�?/p>
4. 数据存储不是有序�Q�无法执行Mapreduce�Q�Mapreduce是目前允许机器故障，��h��强扩展性的最好的�q�行计算模型�Q�且有开源的Hadoop可以直接使用�Q�Dynamo�׃��数据存储依赖Hash无法直接执行Mapreduce��d��?/p>

Programmers 2009-12-05 15:19 发表评论

Programmers — Fri, 04 Dec 2009 15:05:00 GMT

异常处理

Dynamo中把异常分�ؓ两种�c�d��Q��时性的异常和永久性异常。服务器�E�序�q�行时一般通过�c�M��supervise的监控daemon启动�Q�出现core dump�{�异常情冉|��自动重启。这�U�异常是临时性的�Q�其它异常如��盘报修或机器报废等�׃��其持�l�时间太长，�U�C��为永久性的。回��Dynamo的设计，一份数据被写到N, N+1, ... N+K-1�q�K台机器上�Q�如果机器N+i (0 <= i <= K-1)宕机�Q�原本写入该机器的数据�{�U�d��机器N+K�Q�机器N+K定时ping机器N+i�Q�如果在指定的时间T内N+i重新提供服务�Q�机器N+K��启动传输�Q务将暂存的数据发送给机器N+i�Q�如果超�q�了旉��T机器N+i�q�是处于宕机状态，�q�种异常被认为是�怹�性的�Q�这旉��要借助Merkle Tree机制�q�行数据同步。这里的问题在于旉��T的选择�Q�所以Dynamo的开发�h员后来干脆把所有程序检��出来的异常认�ؓ是��时性的�Q��ƈ提供�l�管理员一个utility工具�Q�用来显�C�指定一台机器永久性下�Uѝ��由于数据被存储了K份，一台机器下�U�将��D��后箋的K台机器出现数据不一致的情况。这是因为原本属于机器N的数据由于机器下�U�可能被临时写入机器N+1, ... N+K。如果机器N出现�怹�性异常，后箋的K台机器都需要服务它的部分数据，�q�时它们都需要选择冗余机器中较为空闲的一台进行同步。Merkle Tree同步的原理很��单，每个非叶子节点对应多个文�Ӟ��为其所有子节点值组合以后的Hash��|��叶子节点对应单个数据文�g�Q��ؓ文�g内容的Hash倹{��这��P��M��一个数据文件不匚w��都将��D��从该文�g对应的叶子节点到根节点的所有节点��g��同。每台机器维护K��Merkle Tree�Q�机器同步时首先传输Merkle Tree信息�Q��ƈ且只需要同步从根到叶子的所有节点值均不相同的文�g�?/p>
�?写流�E?/p>
客户端的�?写请求首先传输到�~�存的一台机器，�Ҏ��预先配置的K、W和R��|��对于写请求，�Ҏ��DHT��法计算出数据所属的节点后直接写入后�l�的K个节点，�{�到W个节点返回成功时�q�回客户端，如果写请求失败将加入retry_list不断重试。如果某台机器发生了临时性异常，��数据写入后�l�的备用机器�q�在备用机器中记录��时异常的机器信息。对于读��h��Q�根据DHT��法计算出数据所属节点后�Ҏ��负蝲�{�略选择R个节点，从中��d��R份数据，如果数据一��_��直接�q�回客户端；如果数据不一��_��采用vector clock的方法解军_��H�。Dynamo�pȝ��默认的策略是选择最新的数据�Q�当然用户也可以自定义冲�H�处理方法。每个写入系�l�的寚w��记录一个vector lock信息�Q�vector lock��是一�p�d��<机器节点�? 版本�?旉��?gt;对，记录每台机器对该数据的最新更新版本信息。如下图�Q?/p>

��d��时进行冲�H�解冻I��如果一台机器读到的数据的vector lock记录的所有版本信息都��于另一台机器，直接�q�回vector lock较大的数据；如果二者是�q��版本�Q�根据时间戳选择最新的数据或者通过用户自定义策略解军_��H�。读��h��除了�q�回数据��g��外还�q�回vector lock信息�Q�后�l�的写操作需要带上该信息�?/p>
问题1�Q�垃圾数据如何回�Ӟ��

Dynamo的垃圑֛�收机制主要依赖每个节点上的存储引擎，如Berkely db存储引擎�Q�merge-dump存储引擎�{�。其它操作，如Merkle Tree同步产生的垃圾文件回收可以和底层存储引擎配合完成�?/p>
问题2�Q�Dynamo有没有可能丢数据�Q?/p>
关键在于K, W, R的设�|�。假设一个读敏感应用讄��K=3, W=3, R=1�Q�待处理的数据原本属于节点A, B, C�Q�节点B出现临时性故障的�q�程中由节点D代替。在节点B出现故障到节点B同步完成节点D暂存的修改这�D�|��间内�Q�如果读��h��落入节点B或者D都将出现丢数据的问题。这里需要适当处理下，对于B节点下线的情况，�׃��其它机器要么�~�存了B节点已下�U�信息，要么��d��时将发现B节点处于下线状态，�q�是只需要将��h��转发其它节点卛_��Q�对于B节点上线情况�Q�可以等到B节点完全同步以后才开始提供读服务。对于设�|�W
问题3�Q�Dynamo的写入数据有没有��序问题�Q?/p>
假设要写入两条数�?add item"�?delete item"�Q�如果写入的��序不同�Q�将��D��完全不同的结果。如果设�|�W=K�Q�对于同一个客��L��Q�由于写入所有的机器以后才返回，可以保证��序�Q�而多个客��L��的写操作可能被不同的节点处理�Q�不能保证顺序性。如果设�|�W < K�Q�Dynamo不保证顺序性�?/p>
问题4�Q�冲�H�解军_��是否需要将�l�果值更新存储节点？

��L��作解军_��H�后不需要将�l�果值更新存储节炏V��生冲�H�的情况一般有机器下线或者多个客��L��D��的顺序问题。机器下�U�时retry_list中的操作��丢失，某些节点不能获取所有的更新操作。对于机器暂时性或者永久性的异常�Q�Dynamo中内部都有同步机制进行处理，但是对于retry_list中的操作丢失或者多个客��L��引发的顺序问题，Dynamo内部�Ҏ��无法分��L数据是否正确。唯一的冲�H�解��x��器在��L��作，Dynamo可以设计成读操作��冲�H�解决结果值更新存储节点，但是�q�样会��L��作变得复杂和不高效。所以，比较好的做法是每个写操作都带上读操作�q�回的多个版本数据，写操作将冲突处理的结果更新存储节炏V�?/p>

Programmers 2009-12-04 23:05 发表评论

名词解释�Q�乐观锁 vs 悲观锁，coarse-grained vs fine-grained

Programmers — Thu, 03 Dec 2009 06:58:00 GMT

分布式系�l�或其它论文里面�l�常出现下面几个名词�Q?br/> 乐观锁：有时�U�C��optimistic concurrency control, 指�ƈ发控制的时候“乐观”地认�ؓ冲突的概率很��，万一发生了冲�H�再重试。具体表��Cؓ事务执行�q�程中不锁住其它事务�Q�等��C��务提交的时候看一下是否发生了冲突�Q�如果冲�H�则重试或回滚，否则提交事务�?br/> 悲观锁：�q�发控制的时候��L��很悲观，事务执行�q�程中锁住其它事务，事务提交时不会有冲突�?br/> 从表面上看，悲观锁比较符合计��机基础课上灌输的思维�Q�然而，在分布式�pȝ��环境下，异常是常有的事。假讑ֈ�布式�pȝ��采用悲观锁设计，如果客户端发��Z��?加锁)��h��后异帔R��出，��导致系�l�被�怹�锁住。Web应用存储�pȝ��一般采用乐观锁设计�Q�这和Web应用的读/写比例一般超�q?0相关。系�l�设计的时候面临这样一�U�CAS(Compare-And-Swap)需求：如果待操作项�W�合某个条�g则修攏V��我们可以采用悲观锁锁住待操作项的所有修改，再加上锁的最大持有时间限�Ӟ��但这��L��API设计风险很大�Q�乐观锁可以很好地解册��问题�?br/>
coarse-grained vs fine-grained�Q�粗�_�度和细�_�度。J2EE中常用来指API的粒度，比如, 我有一个远�E�对�? 他有很多属性和对应的getter和setter�Ҏ��, 如果我们�q�程调用对象每个属性的getter和setter�Ҏ��, ��׃��产生很多�q�程�Ҏ��调用. �q�就�?span class="hilite1">fine-grained, 会造成性能问题。所以我们可以用一个setdata或getdata的方法把一些属性的讉K��装��h��, 只用一个远�E�方法传输一个data transfer object来对该对象进行赋值和讉K��, �q�就是coarse-grained。Google Chubby中用来表�C�锁的粒度。coarse-grained指的是分布式锁的持有旉��可以很长�q�不断�g镉K��的持有时��_��q�样的好处在于对锁服务器的压力较��，隄��在于锁服务端宕机恢复需要恢复锁的状态，find-grained指的是分布式锁的持有旉��一般是�U��或者毫�U��Q�这��L��好处在于锁服务器宕机恢复不必�l�持原有锁的状态，但这�U�简单的设计�Ҏ��D��服务器压力很大，不容易扩展到大集��。Google的设计一开始就把集��的�U�性扩展放��C��一个很重要的位�|�，所以Google Chubby里面使用了coarse-grained的设计。客��L��可以��单地在coarse-grained锁的基础上扩展出一个fine-grained的锁�Q�具体请看Chubby论文�Q?a target="_blank">scholar.google.cn/scholar

Programmers 2009-12-03 14:58 发表评论

Megastore-Bigtable上的��装

Programmers — Thu, 03 Dec 2009 06:58:00 GMT

Google在SIGMOD 2008上透露了Megastore部分实现�l�节�Q�详情参考大牛James Hamilton的blog�Q?a target="_blank">perspectives.mvdirona.com/2008/07/10/GoogleMegastore.aspx
大牛的文章固然不错，不过肯定不大好懂�Q�下面我说一下我�Ҏ��章的��译+理解�Q?br/> 1. Google Bigtable只支持最��单的insert, update, del, ...�{�函数调用API�Q�不支持SQL形式的API�Q�这个�{换工作放��C��Megastore层次上来做。SQL对于异步Bigtable调用的支持需要仔�l�考虑�?br/> 2. 对于索引支持文章中已�l�说得很明显了，�l�护一�?lt;索引�Q�row_key>的烦引表�Q�更新时先更新数据表再更新烦引表�Q�烦引项��多�Q�更新效率越低，但是��d��本不怎么影响�Q�特别适合互联�|�这�U�读/写比例一般超�q?0倍的应用�?br/> 3. Megastore不提供通用的分布式事务支持�Q�分布式事务仅仅限于同一个entity group。Bigtable支持单行的事务，而Megastore支持row key前缀相同的多行事务，如一个用��L��blog, post, photo�Q�可以将它们存在到Bigtable的一张表中，row key为user_id + blog_id + post_id + photo_id�Q�这样同一个user的数据即��Z��个entity group。然而，�q�样��导致不能支持像百付宝、支付宝�{�电子商务�{账事务，我暂时也�q�不清楚支持同一个entity group内部的事务意义有多大�Q�即有多��web应用需要这�U�同一个entity group下的事务支持�?br/> 4. Megastore支持事务的方式当然还是传�l�的Two-phase commit协议�Q��ؓ了解册��个协议中协调者失效导致的问题�Q�引入Paxos协议(Google Chubby)使协调者不再成为单炏V��具体做��h��会非常复杂，�q�里提供��大牛Jim Gray和Lamport的一��论文供大家参考：scholar.google.com/scholar 个�h认�ؓOracle的事务内部是一个基本的Two-phase commit协议�Q�协调者宕机时由Oracle DBA手工介入�Q�由于其复杂性，对DBA要求很高�Q�所以Taobao一直网�|�国内顶�U�DBA牛�h�?br/> 5. Megastore具体事务实现时会借用Bigtable 原有的机制来实现commit log, replication�{�功能。可能的实现为：��Z��张专门的Entity group root表，加蝲Entity group root表的Tablet Server做�ؓ协调者角色进行分布式事务控制。然而问题在于加载Entity group root表的Tablet Server是一个单点，实现多个Tablet Server服务同一个Bigtable Tablet又是一件极其困隄��事情�?br/> 6. Megastore不支持复杂的Join操作�Q�这和互联网公司应用性质相关。Join操作一般不要求��Z��致性，可以通过多表冗余方式实现�?br/> 7. 事务的�ƈ发控刉��用最优控制策略。简单来��_��是事务�q�程中不要锁住其它事务操作，提交的时候看一下是否与其它事务冲突�Q�如果有冲突则重试。Megastore实现时没有rollback�Q�失败了都是retry�Q�宕��Z��回放操作日志�?br/> 8. Megastore/Bigtable的实现者认��用户自己指定entity group, locality group是合理的�Q�和数据存储位置相关)。这��L��效果是同一个entity group的数据经常存攑֜�一台机器上�Q�分布式事务的性能损耗较��，�q�也��p��明在分布式系�l�中�Q�没有代��L��scalable是不存在的，要想获得scalable和性能�Q�就必须牺牲关系数据库的一些特性及用户的易用性�?br/>
上述均�ؓ个�h的粗��看法，如何避免协调者的单点�{�很多问题还没有��x��楚，Bigtable和Megastore的replication�{�略看�v来也有些冲突�Q�想清楚后将�l�写�Q?/div>

Programmers 2009-12-03 14:58 发表评论

[导入]Dynamo(�?�Q�Dynamo的replication

Programmers — Thu, 03 Dec 2009 05:43:00 GMT
前文说到�Q�Dynamo DHT能够定位数据所属的节点�Q��ؓ了处理节点失效的情况�Q�DHT环中删除节点�Q�，需要对节点的数据进行replication。思�\如下�Q�假设数据存储K份，DHT定位到的数据所属节点�ؓN�Q�则数据存储在节点N, N+1, ..., N+K-1上。如果第i (0 <= i <= K-1) 台机器宕机，则往后找一台机器N+K临时替代。��时替代的机器定时ping机器N+i�Q�等到它重启后将�q�些临时数据重新写入N+i。机器N+i宕机的这�D�|��间内�Q�所有的��d��均落入到机器[N, N+i-1]和[N+i+1, N+K]中，�q�段旉��会出现数据一致性问题，需要引入专门的冲突解决协议�Q�在Dynamo中是通过Lamport的vector clock实现的。如果机器N+i�怹�失效�Q�机器N+K需要进行同步操作。一般来��_��从机器N+i宕机开始到被认定�ؓ�怹�失效的时间不会太长，�U�篏的写操作也不会太多，可以采用Merkle Tree�Ҏ��器的数据文�g�q�行快速同步�?br> ��Z��在可用性和效率之间权衡�Q�Dynamo的设计中允许用户指定�?写个数R和W倹{��R和W分别表示每个�?写操作需要操作的副本数。只要满��R+W > K�Q�就可以保证在存在不��过一台机器故障的时候，臛_��能够��d��一份有效的数据。如果应用重视读效率�Q�可以设�|�W = K, R = 1�Q�如果应用需要在�?写之间权衡，一般可讄��W = 2, R = 2�Q�K = 3�?br>
问题1�Q�Dynamo中如何解决网�l�分区问题？
前面已经提到�Q�DHT协议本��n是无法处理网�l�分区的。在Dynamo中，引入�U�子节点�Q�服务器定期向种子节点轮询整个机��的机器信息�Q�种子节点的选择�W�合一定的�{�略使得�|�络分区问题出现概率降至工程可以接受的水�q��?br>
问题2�Q�如何将数据复制到多个数据中心？
每䆾数据都被复制到N, N+1, ..., N+K-1�q�K台机器中�Q��ؓ了保证这些机器属于不同的数据中心�Q�需要合理地设计获取数据节点��L��Hash��法。当�Ӟ��Dynamo通过直接手工配置每台机器的编可��冟뀂看��h��很山寨，不过很实用，呵呵�?阅读全文
�c�d��Q?/b>默认分类查看评论
文章来源:http://hi.baidu.com/knuthocean/blog/item/f085d72a06d4ee27d52af170.html

Programmers 2009-12-03 13:43 发表评论

Programmers — Thu, 03 Dec 2009 05:43:00 GMT
DHT全称Distributed Hash Table (en.wikipedia.org/wiki/Distributed_hash_table)�Q�在P2P�pȝ��中经常用来定位数据所属机器。这��涉及到一致哈�?consistent hashing)思想�Q�分布式�pȝ��中经常出现机器上下线�Q�如果采用通常的Hash�Ҏ��来查找数据所属机器，机器上下�U�将��D��整个集群的数据分布被打�ؕ。这是因为，机器上下�U�将��D��机器序号及Hash函数的改变，一致哈希做了简单调��_��每台机器存储哈希值和它最为接�q�的数据。在Chord�pȝ��中，��时针到辄��W�一台机器即为最�q�的机器�?br> 外部的数据可能首先传输至集群中的��L��一台机器，��Z��扑ֈ�数据所属机器，要求每台机器�l�护一定的集群机器信息用于定位。最直观的想法当然是每台机器分别�l�护它的前一台及后一台机器的信息�Q�机器的�~�号可以为机器IP的Hash��|��定位机器最坏情况下复杂度�ؓO(N)。可以采用��^衡化思想来优化（如同�q��二叉树优化数�l?链表�Q�，使每一台机器存储O(logN)的集��机器信息，定位机器最坏情况下复杂度�ؓO(logN)�?br> 首先考虑每台机器�l�护前一台及后一台机器信息的情况�Q�这里的问题是机器上下线��D��~�存信息的不一��_��我们需要设计协议��得在��定一�D�|��较短的时间内能够�U�正�q�种错误。对于新机器加入�Q�首先进行一�ơ查找操作找到该机器的下一台机器，�q�记录下一台机器的信息。机器内的每台机器都定时向它的后�l�发送心跳信息，如果后��记录的前一台机器编号在二者之��_��说明有新机器加入�Q�这旉��要更新后一台机器编号�ؓ新加入编��P��收到心蟩信息的后�l�也需要检查，如果发送心跳的机器�~�号较�ؓ接近则更��Cؓ前一台机器。机器下�U�将��D��机器循环链表断开�Q�所以，每台机器都维护了R�?一般取R��gؓ3)最�q�的后��信息�Q�发现后�l�节点下�U�时��通知其它后��节点�q�加入新的替换节炏V��如果R个后�l�节点同时下�U�，需要操作�h员手工介入修复��@环链�?br> Chord中的每台机器�l�护O(logN)的机器信息是一�U�空间换旉��的做法，实现旉��要引入额外的消息交换协议。这�U�做法依赖于如下前提�Q�每台机器维护的前一台机器及后一台机器除了短旉��不一致外��L��正确的�?br>
问题1�Q�机器缓存短旉��不一致有什么媄响？数据正确性依靠什么保证？
短时间可能出现缓存的机器信息不正��的情况。比如有A, C, D, E四台机器�Q�再加入一台机器B�Q�机器加入的�q�程中，原本属于B的数据可能写入到B或者C�Q�这都是允许的。又如删除机器C�Q�访问机器C的节点得不到数据。数据的可用性及一致性还需要通过额外的replication及冲�H�处理协议解冟�?br> 问题2�Q�DHT能否处理�|�络分区问题�Q?br> DHT不能处理�|�络分区问题�Q�理��Z��存在整个DHT被分成多个子集的情况。我惻I��q�时侯需要外部的机制介入�Q�如�l�护一台外部机器保存所有机器列表等�?阅读全文
�c�d��Q?/b>默认分类查看评论
文章来源:http://hi.baidu.com/knuthocean/blog/item/cca1e711221dcfcca6ef3f1d.html

Programmers 2009-12-03 13:43 发表评论

[导入]Amazon Dynamo论文阅读�W�记(�?

Programmers — Thu, 03 Dec 2009 05:43:00 GMT
Amazon Dynamo是组合��用P2P各种技术的�l�典论文�Q�对单机key-value存储�pȝ��扩展成分布式�pȝ��有借鉴意义�Q�值得仔细推敲。本人准备近期深入阅读该论文�Q��ƈ写下��M��W�记自娱自乐。当�Ӟ��如果有志同道合的同学非常�Ƣ迎交流。以下是阅读计划�Q?br> 1. 一切从DHT开始。Dynamo首先要解决的��是�l�定关键字key扑և�服务节点的问题。Dynamo的思想与Chord有些�c�M��Q�我们可以抛开replication问题�Q�看看Chord和Dynamo是如何通过应用DHT解决服务节点定位问题的。这里面的难点当然是节点加入和删除，��其是多个节点�ƈ发加�?删除。徏议预先阅读Chord论文�Q?a target="_blank">scholar.google.com/scholar �?br> 2. Dynamo的replication。理解了DHT�Q�我们需要结合replication理解服务节点定位及错误处理等问题�?br> 3. Dynamo错误处理。这里包括两�U�类型的错误�Q�一�U�是暂时性的�Q�如�׃��E�序bug core dump后重启，另外一�U�是�怹�性的�Q�这里用��C��Merkle Tree同步技术�?br> 4. Dynamo�?写流�E�设计及冲突解决。这里主要涉及到一致性模型。Dynamo允许�Ҏ��应用配置R和W值来权衡效率及Availability�Q��ƈ使用了Lamport的Vector Clock来解军_��H��?br> 5. Dynamo优化。主要是Load rebalance的优化�?br> 6. Dynamo实现。如果让我们自己来实现Dynamo�Q�我们应该如何划分模块以及实现过�E�中有哪些关键问题？
后箋��按照计划对每个问题做阅�ȝ��?:) 阅读全文
�c�d��Q?/b>默认分类查看评论
文章来源:http://hi.baidu.com/knuthocean/blog/item/8838ad34f9ae1dbdd0a2d3d7.html

Programmers 2009-12-03 13:43 发表评论

Programmers — Thu, 03 Dec 2009 05:43:00 GMT
推荐两本分布式系�l�方面书�c�：
1. <> Andrew S. Tanenbaum www.china-pub.com/40777&ref=ps Tanenbaum出品�Q�必属精品。本书条理清晎ͼ�涉及到分布式�pȝ��的方斚w��面，通俗易懂�q��录了分布式系�l�各个经兔R��题的论文阅读资料�Q�是分布式系�l�入门的不二选择。感觉和以前看过�?lt;>一��P��读�v来让人心��L��怡，��通读�?br> 2. <> Gerard Tel www.china-pub.com/13102&ref=ps 我们老大推荐的书�c�。虽然从名字看是入门型书�c�，不过内容一炚w��不好懂，适合有一定基��的同学。另外，千万要注意，一定要买英文原版�?阅读全文
�c�d��Q?/b>默认分类查看评论
文章来源:http://hi.baidu.com/knuthocean/blog/item/8838ad34fbfb1fbdd1a2d364.html

Programmers 2009-12-03 13:43 发表评论

色综合激情久久,av成人 com a,久久丁香综合五月国产三级网站

分布式事�?一)�Q�Two-phase commit & Three-phase commit

再说Bigtable replication

Dynamo(�?�Q�Dynamo优化及优�~�点

名词解释�Q�乐观锁 vs 悲观锁，coarse-grained vs fine-grained

Megastore-Bigtable上的���装

[导入]Dynamo(�?�Q�Dynamo的replication

[导入]Amazon Dynamo论文阅读�W�记(�?

Megastore-Bigtable上的��装