人人草在线视频,91短视频在线,97蜜桃久久

分布式消息中间�gMetaq发布1.4.3

dennis — Mon, 04 Jun 2012 02:03:00 GMT

我们在维护的淘宝开源消息中间�g�?a style="color: #006699; ">metaq�?a style="color: #006699; ">github分支�Q�今天发布了(ji��n)1.4.2版本�Q�主要做�?ji��n)如下改�q�：(x��)

1.支持发送和订阅分离�Q�可以细�_�度地控制Broker或者某个Topic是否接收消息和接受订阅。服务端��d��新选项acceptPublish和acceptSubscribe�?br />
2.更友好地关闭Broker�Q�梳理关闭流�E��ƈ通过JMX调用�Ҏ(gu��)��关闭替代原来��单的kill�?br />
3.更新python客户�?/a>�?.2版本�Q�可以通过pip安装: pip install metaq

4.发布r(ji��)uby语言客户�?a style="color: #006699; ">meta-ruby 0.1版本�?br />
5.其他��改�q�：(x��)升��gecko�?.1.1版本�Q�升�U�quartz�?.1.4版本�Q�添加集成测试工�E�和内部重构�{��?br />
6.新文�?a >《��用log4j扩展发送消息�?/a>

��介：(x��)https://github.com/killme2008/Metamorphosis/wiki/介绍
下蝲�Q?a style="color: #006699; ">https://github.com/killme2008/Metamorphosis/downloads

文档�Q?a style="color: #006699; ">https://github.com/killme2008/Metamorphosis/wiki

dennis 2012-06-04 10:03 发表评论

分布式消息中间�gMetaq发布1.4.2

dennis — Wed, 09 May 2012 14:47:00 GMT

我们在维护的淘宝开源消息中间�g�?a >metaq的github分支�Q�今天发布了(ji��n)1.4.2版本�Q�主要做�?ji��n)如下改�q�：(x��)

1.��d��?ji��n)大量的使用和原理文档，参�?a >Wiki�?br /> 2.合�ƈtools和server-wrapper工程�Q�提供统一的脚本来��理Broker�Q�管理Broker的工作变得非常容易，全部工作都可以通过metaServer.sh的脚本来执行。同时提供了(ji��n)bat启动脚本�Q�用于在windows上启动Broker做测试�?br /> 3.新功能：(x��)
�Q?�Q�新的客��L(f��ng)��API用来获取topic的分区列�?br /> �Q?�Q�新的客��L(f��ng)��API用来获取Broker的统计信�?br /> �Q?�Q�异步复制的Slave可以自动获取Master的配�|�变��_(d��)��例如Master在配�|�文件中新增或者删除了(ji��n)topic�q��利reload热加载成功后�Q�slave可自动复制或者移除变更的topic�Q�无需重启�?br /> �Q?�Q�新的统计项目，可以通过'stats config'协议获取Broker的配�|�文件�?br /> 4.��d��meta-python��目�Q�一个python的客��L(f��ng)��Q�暂时仅支持发送消息功能�?br /> 5.其他��改�q�，如统计信息的优化、构建工��L(f��ng)��整合�{��?br />
更详�l�的发行日志��L(f��ng)��RelaseNotes�?br />
下蝲地址�Q? https://github.com/killme2008/Metamorphosis/downloads
入门指南�Q? �?a >如何开�?/a>�?br /> 更多文档��L(f��ng)��Wiki�?img src ="http://www.aygfsteel.com/killme2008/aggbug/377748.html" width = "1" height = "1" />

dennis 2012-05-09 22:47 发表评论

dennis — Fri, 13 Apr 2012 14:43:00 GMT

最�q�陆陆箋�l�补充了(ji��n)不少metaq的文档，部分是直接从官方文档里摘抄出来，攑֜��?/span>github工程的wiki��?/span>�Q�有兴趣�?ji��n)解甚至使用meta的可以仔�l�阅��M��Q�一份目录：(x��)

介绍
基础概念和术语定�?/span>
消息的可靠性、顺序和重复
如何开�?/span>
��单例�?/span>
服务端配�|�管�?/span>
集群和负载均�?/span>
高可用配�|?异步复制和同步复�?
路线�?/span>
FAQ
最�?j��ng)_��?/span>
官方手册(word文档)

Developer

参与贡献
设计
通讯协议
消息的存�?/span>

兌��目

metamorphosis-example:�C�Z��目
storm-metamorphosis-spout:使用metamorphosis作�ؓ(f��)twitter storm的spout�?/span>
meta-python: metamorphosis的python语言客户端。目前只支持发送消息功能�?/span>

后箋�q�会(x��)�l�箋补充�?/span>

dennis 2012-04-13 22:43 发表评论

dennis — Wed, 21 Mar 2012 11:08:00 GMT

前面一��博客介�l�了(ji��n)我在github上的一�?a >metaq分支�Q�今天下午写�?ji��n)个metaq的python客户端，目前仅支持发送消息功能，不过麻雀虽小�Q�五脏俱全，客户端和zookeeper的交互和�q�接��理之类都还具备�Q�不出意外，我们�?x��)首先用上。第一�ơ正儿八�l�地写python代码�Q�写的不好的地方请尽��拍砖，多谢�?br /> ��目叫meta-python�Q�仍然放在github上：(x��)https://github.com/killme2008/meta-python

使用需要先安装zkpython�q�个库，具体安装�q�篇博客�Q��用很��单，发送消息：(x��)

  from metamorphosis import Message,MessageProducer,SendResult
    p=MessageProducer("topic")
    message=Message("topic","message body")
    print p.send(message)
    p.close()

MessageProducer��是消息发送者，它的构造函数接受至��一个topic�Q�默认的zk_servers为localhost:2181�Q�可以通过zk_servers参数指定你的zookeeper集群:

p=MessageProducer("topic",zk_servers="192.168.1.100:2191,192.168.1.101:2181")

更多参数��L(f��ng)��接看源码吧。一个本机的性能��试�Q�meta和客��L(f��ng)��都跑在我的机器上�Q�机器是Mac MC700�Q�osx 10.7�Q�磁盘没有升�U�过�Q�：(x��)

from metamorphosis import Message,MessageProducer
from time import time
p=MessageProducer("avos-fetch-tasks")
message=Message("avos-fetch-tasks","http://www.taobao.com")
start=time()
for i in range(0,10000):
    sent=p.send(message)
    if not sent.success:
        print "send failed"
finish=time()
secs=finish-start
print "duration:%s seconds" % (secs)
print "tps:%s msgs/second" % (10000/secs)
p.close()

�l�果�Q?br />

duration:1.85962295532 seconds
tps:5377.43415749 msgs/second

dennis 2012-03-21 19:08 发表评论

淘宝开源MQ——metamorphosis的github分支

dennis — Fri, 16 Mar 2012 02:39:00 GMT

上周我在淘宝的同事开源了(ji��n)一个消息中间�gmetamorphosis�Q�放在了(ji��n)淘蝌�?/a>上。我从淘蝌蚪的svn上fork�?ji��n)一个github的分支，攑֜��?ji��n)这里�?x��)

1.��M��工程�Q?a >https://github.com/killme2008/Metamorphosis

2.�C�Z��目�Q?a >https://github.com/killme2008/metamorphosis-example

3.Twitter storm的spout��目�Q?a >https://github.com/killme2008/storm-metamorphosis-spout

主要做了(ji��n)一些pom文�g的简化，发布1.4.0.2版本到maven central仓库�Q��ƈ且写�?ji��n)几个简单的入门文档�Q�提供了(ji��n)一个完整打包可�q�行的下载，有兴��的自己看github��面吧�?Wiki文档攑֜��Q?br /> https://github.com/killme2008/Metamorphosis/wiki

客户端Maven依赖包括�Q�可自行选择��d��Q?br />

<dependency>
    <groupId>com.taobao.metamorphosisgroupId>
    <artifactId>metamorphosis-clientartifactId>
    <version>1.4.0.2version>
dependency>

<dependency>
    <groupId>com.taobao.metamorphosisgroupId>
    <artifactId>metamorphosis-client-extensionartifactId>
    <version>1.4.0.2version>
dependency>

<dependency>
    <groupId>com.taobao.metamorphosisgroupId>
    <artifactId>storm-metamorphosis-spoutartifactId>
    <version>1.0.0version>
dependency>

ps.我开通了(ji��n)新浪微博�Q�有兴趣�怺��x��下：(x��)http://weibo.com/fnil�Q�你看，偏见是可以改变的�?img src ="http://www.aygfsteel.com/killme2008/aggbug/372019.html" width = "1" height = "1" />

dennis 2012-03-16 10:39 发表评论

storm常见问题解答

dennis — Mon, 19 Dec 2011 07:25:00 GMT

最�q�有朋友�l�我邮�g问一些storm的问题，集中解答在这里�?br />一、我有一个数据文�Ӟ��或者我有一个系�l�里面有数据�Q�怎么导入storm做计��？

你需要实��C��个Spout�Q�Spout负责��数据emit到storm�pȝ��里，交给bolts计算。怎么实现spout可以参考官方的kestrel spout实现�Q?br />https://github.com/nathanmarz/storm-kestrel

如果你的数据源不支持事务性消费，那么��无法得到storm提供的可靠处理的保证�Q�也没必要实现ISpout接口中的ack和fail�Ҏ(gu��)��?br />
二、Storm��Z��(ji��n)保证tuple的可靠处理，需要保存tuple信息�Q�这�?x��)不会(x��)导致内存OOM�Q?/strong>

Storm��Z��(ji��n)保证tuple的可靠处理，acker�?x��)保存该节点创徏的tuple id的xor��|��q�称为ack value�Q�那么每ack一�ơ，��将tuple id和ack value做异�?xor)。当所有��生的tuple都被ack的时候， ack value一定�ؓ(f��)0。这是个很简单的�{�略�Q�对于每一个tuple也只要占用约20个字节的内存。对�?00万tuple�Q�也�?0M左右。关于可靠处理看�q�个�Q?br />https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processing

三、Storm计算后的�l�果保存在哪里？可以保存在外部存储吗�Q?/strong>

Storm不处理计��结果的保存�Q�这是应用代码需要负责的事情�Q�如果数据不大，你可以简单地保存在内存里�Q�也可以每次都更新数据库�Q�也可以采用NoSQL存储。storm�q�没有像s4那样提供一个Persist API�Q�根据时间或者容量来做存储输出。这部分事情完全交给用户�?br />
数据存储之后的展玎ͼ�也是你需要自己处理的�Q�storm UI只提供对topology的监控和�l�计�?br />
四、Storm怎么处理重复的tuple�Q?/strong>

因�ؓ(f��)Storm要保证tuple的可靠处理，当tuple处理��p�|或者超时的时候，spout�?x��)fail�q��新发送该tuple�Q�那么就�?x��)有tuple重复计算的问题。这个问题是很难解决的，storm也没有提供机制帮助你解决。一些可行的�{�略�Q?br />�Q?�Q�不处理�Q�这也算是种�{�略。因为实时计��通常�q�不要求很高的精��度�Q�后�l�的批处理计��会(x��)更正实时计算的误差�?br />�Q?�Q��用第三方集中存储来过滤，比如利用mysql,memcached或者redis�Ҏ(gu��)��逻辑主键来去重�?br />�Q?�Q��用bloom filter做过滤，��单高效�?br />
五、Storm的动态增删节�?/strong>

我在storm和s4里比较里谈到的动态增删节点，是指storm可以动态地��d��和减��supervisor节点。对于减��节�Ҏ(gu��)��_(d��)��被移除的supervisor上的worker�?x��)被nimbus重新负蝲均衡到其他supervisor节点上。在storm 0.6.1以前的版本，增加supervisor节点不会(x��)影响现有的topology�Q�也��是现有的topology不会(x��)重新负蝲均衡到新的节点上�Q�在扩展集群的时候很不方便，需要重新提交topology。因此我在storm的邮件列表里提了(ji��n)�q�个问题�Q�storm的开发者nathanmarz创徏�?ji��n)一个issue 54�q�在0.6.1提供�?ji��n)rebalance命��o(h��)来让正在�q�行的topology重新负蝲均衡�Q�具体见�Q?br />https://github.com/nathanmarz/storm/issues/54
�?.6.1的变��_(d��)��(x��)
http://groups.google.com/group/storm-user/browse_thread/thread/24a8fce0b2e53246

storm�q�不提供机制来动态调整worker和task数目�?br />
六、Storm UI里spout�l�计的complete latency的具体含义是什么？��Z��么emit的数目会(x��)是acked的两倍？
�q�个事实上是storm邮�g列表里的一个问题。Storm作者marz的解�{�：(x��)
The complete latency is the time from the spout emitting a tuple to that
tuple being acked on the spout. So it tracks the time for the whole tuple
tree to be processed.

If you dive into the spout component in the UI, you'll see that a lot of
the emitted/transferred is on the __ack* stream. This is the spout
communicating with the ackers which take care of tracking the tuple trees.

��单地��_(d��)��complete latency表示�?ji��n)tuple从emit到被acked�l�过的时��_(d��)��可以认�ؓ(f��)是tuple以及(qi��ng)该tuple的后�l�子孙（形成一��|��(w��i)�Q�整个处理时间。其�ơspout的emit和transfered�q�统计了(ji��n)spout和acker之间内部的通信信息�Q�比如对于可靠处理的spout来说�Q�会(x��)在emit的时候同时发送一个_ack_init�l�acker�Q�记录tuple id到task id的映��，以便ack的时候能扑ֈ�正确的acker task�?br />

dennis 2011-12-19 15:25 发表评论

dennis — Thu, 01 Dec 2011 13:48:00 GMT
    原文�Q?a href="http://www.aygfsteel.com/killme2008/archive/2011/11/17/364112.html">http://www.aygfsteel.com/killme2008/archive/2011/11/17/364112.html
    作者：(x��)dennis (killme2008@gmail.com)
    转蝲��h��明出处�?br />
    最�q�一直在读twitter开源的�q�个分布式流计算框架——storm的源码，�q�是有必要记录下一些比较有意思的地方。我按照storm的主要概念进行组�l�，�q�且只分析我��x��的东西，因此�U�C��为浅析�?nbsp;

一、介�l?br />    Storm的开发语�a�主要是Java和Clojure�Q�其中Java定义骨架�Q�而Clojure�~�写核心(j��)逻辑。源码统计结果：(x��)
     180 text files.
     177 unique files.
       7 files ignored.

http://cloc.sourceforge.net v 1.55  T=1.0 s (171.0 files/s, 46869.0 lines/s)
-------------------------------------------------------------------------------
Language                     files          blank        comment           code
-------------------------------------------------------------------------------
Java                           125           5010           2414          25661
Lisp                            33            732            283           4871
Python                           7            742            433           4675
CSS                              1             12             45           1837
ruby                             2             22              0            104
Bourne Shell                     1              0              0              6
Javascript                       2              1             15              6
-------------------------------------------------------------------------------
SUM:                           171           6519           3190          37160
-------------------------------------------------------------------------------

Java代码25000多行�Q�而Clojure(Lisp)只有4871行，说语�a�不重要再�ơ证明是扯��E�?br />
二、Topology和Nimbus
    Topology是storm的核�?j��)理念，��spout和bolt�l�织成一个topology�Q�运行在storm集群里，完成实时分析和计��的��d��。这里我主要想介�l�下topology部��v到storm集群的大概过�E�。提交一个topology��d��到Storm集群是通过StormSubmitter.submitTopology�Ҏ(gu��)��提交�Q?br />
StormSubmitter.submitTopology(name, conf, builder.createTopology());
    我们��topology打成jar包后�Q�利用bin/storm�q�个python脚本�Q�执行如下命令：(x��)
bin/storm jar xxxx.jar com.taobao.MyTopology args
    ��jar包提交给storm集群。storm脚本�?x��)启动JVM执行Topology的main�Ҏ(gu��)��Q�执行submitTopology的过�E�。而submitTopology�?x��)将jar文�g上传到nimbus�Q�上传是通过socket传输。在storm�q�个python脚本的jar�Ҏ(gu��)��里可以看刎ͼ�(x��)
def jar(jarfile, klass, *args):
   exec_storm_class(
        klass,
        jvmtype="-client",
        extrajars=[jarfile, CONF_DIR, STORM_DIR + "/bin"],
        args=args,
        prefix="export STORM_JAR=" + jarfile + ";")
     ��jar文�g的地址讄��为环境变量STORM_JAR�Q�这个环境变量在执行submitTopology的时候用刎ͼ�(x��)
//StormSubmitter.java
private static void submitJar(Map conf) {
        if(submittedJar==null) {
            LOG.info("Jar not uploaded to master yet. Submitting jar");
            String localJar = System.getenv("STORM_JAR");
            submittedJar = submitJar(conf, localJar);
        } else {
            LOG.info("Jar already uploaded to master. Not submitting jar.");
        }
    }
    通过环境变量扑ֈ�jar包的地址�Q�然后上传。利用环境变量传参是个小技巧�?br />
    其次�Q�nimbus在接收到jar文�g后，存放到数据目录的inbox目录�Q?strong>nimbus数据目录的结�?/strong>�Q?br />
-nimbus
     -inbox
         -stormjar-57f1d694-2865-4b3b-8a7c-99104fc0aea3.jar
         -stormjar-76b4e316-b430-4215-9e26-4f33ba4ee520.jar

     -stormdist
        -storm-id
           -stormjar.jar
           -stormconf.ser
           -stormcode.ser
     其中inbox用于存放提交的jar文�g�Q�每个jar文�g都重命名为stormjar加上一�?2位的UUID。而stormdist存放的是启动topology后生成的文�g�Q�每个topology都分配一个唯一的id�Q�ID的规则是“name-计数-旉��?#8221;。启动后的topology的jar文�g名命名�ؓ(f��)storm.jar ,而它的配�|�经�q�java序列化后存放在stormconf.ser文�g�Q�而stormcode.ser是将topology本��n序列化后存放的文件�?strong>�q�些文�g在部�|�的时候，supervisor�?x��)从�q�个目录下蝲�q�些文�g�Q�然后在supervisor本地执行�q�些代码�?/strong>
    �q�入重点�Q�topology��d��的分配过�E?zookeeper路径说明忽略root):
1.在zookeeper上创�?taskheartbeats/{storm id} 路径�Q�用于�Q务的�?j��)蟩��(g��)��。storm对zookeeper的一个重要应用就是利用zk的��(f��)时节点做存活��(g��)��。task��定时刷新节点的旉��戻I��然后nimbus�?x��)检��这个时间戳是否��过timeout讄��?br />2.从topology中获取bolts,spouts讄��的�ƈ行数目以�?qi��ng)全局配置的最大�ƈ行数�Q�然后��生task id列表�Q�如[1 2 3 4]
3.在zookeeper上创�?tasks/{strom id}/{task id}路径�Q��ƈ存储task信息
4.开始分配�Q务（内部�U�Cؓ(f��)assignment)�Q?具体步骤�Q?br /> (1)从zk上获得已有的assignment(新的toplogy当然没有�?ji��n)�?j��)
(2)查找所有可用的slot�Q�所谓slot��是可用的worker�Q�在所有supervisor上配�|�的多个worker的端口�?br /> (3)��Q务均匀地分配给可用的worker�Q�这里有两种情况�Q?br /> (a)task数目比worker多，例如task是[1 2 3 4],可用的slot只有[host1:port1 host2:port1]�Q�那么最�l�是�q�样分配
{1: [host1:port1] 2 : [host2:port1]
         3 : [host1:port1] 4 : [host2:port1]}
�Q�可以看��C�Q务��^均地分配在两个worker上�?br />(b)如果task数目比worker��，例如task是[1 2]�Q�而worker有[host1:port1 host1:port2 host2:port1 host2:port2]�Q�那么首先会(x��)��woker排序�Q?strong>��不同host间隔排列�Q�保证task不会(x��)全部分配到同一个worker上，也就是将worker排列�?br />
[host1:port1 host2:port1 host1:port2 host2:port2]
�Q�然后分配�Q务�ؓ(f��)
{1: host1:port1 , 2 : host2:port2}

(4)记录启动旉��
(5)判断现有的assignment是否跟重新分配的assignment相同�Q�如果相同，不需要变��_(d��)��否则更新assignment到zookeeper�?assignments/{storm id}上�?br />5.启动topology�Q�所谓启动，只是��zookeeper�?storms/{storm id}对应的数据里的active讄��为true�?br />6.nimbus�?x��)检查task的心(j��)跻I��如果发现task�?j��)蟩��过��时旉��Q�那么会(x��)重新跛_��W?步做re-assignment�?br />

dennis 2011-12-01 21:48 发表评论

dennis — Thu, 01 Dec 2011 13:02:00 GMT

    所谓兵马未动，�_�草先行�Q�准备将storm用在某个��目中做实时数据分析。无��Z�Q何系�l�，一定要有监控系�l��ƈ存，当故障发生的时候你能第一个知道，而不是让别�h告诉你，那处理故障就很被动了(ji��n)�?br />
    因此我写�?ji��n)这么个��目�Q�取名叫storm-monitor�Q�放在了(ji��n)github�?br />
     https://github.com/killme2008/storm-monitor

    主要功能如下�Q?br />1.监控supervisor数目是否正确�Q�当supervisor挂掉的时候会(x��)发送警告�?br />2.监控nimbus是否正常�q�行�Q�monitor�?x��)尝试连接nimbus�Q�如果连接失败就认�ؓ(f��)nimbus挂掉�?br />3.监控topology是否正常�q�行�Q�包括它是否正常部��v�Q�是否有�q�行中的��d��?br />
    当故障发生的时候通过alarm�Ҏ(gu��)��警告用户�Q�开攑և��ȝ��只是��单地打日志。因为每个公司的告警接口不一��P��所以你需要自己扩展，修改alarm.clj卛_��。我们这儿就支持旺旺告警和手机短信告警�?br />
    基本的原理很��单，对supervisor和topology的监控是通过zookeeper来间接地监控�Q�通过定期查看path是否存在。对nimbus的监控是每次起一个短�q�接�q�上去，�q�不上去卌��为挂掉�?br />
    整个��目也是用clojure写。你的机器需要安�?a >lein�?a >exec插�g�Q�然后将你的storm.yaml拯��到conf目录下，�~�辑monitor.yaml讑֮�监控参数如检查间隔等�Q�最后启动start.sh脚本卛_��。默认日志输出在logs/monitor.log�?br />

dennis 2011-12-01 21:02 发表评论

dennis — Tue, 08 Nov 2011 14:25:00 GMT

Items\Projects
Yahoo! s4
Twitter Storm

协议
Apache license 2.0
Eclipse Public License 1.0

开发语�a�
Java
Clojure,Java,Clojure�~�写�?ji��n)核心(j��)代�?/td>

�l�构
��M��?j��)化的对�{�结�?br /> 有中�?j��)节点nimbus�Q�但非关�?/td>

通信
可插拔的通讯层，目前是基于UDP的实�?/td> ��Z��facebook开源的thrift框架

事�g/Stream
序列�Q�用户可自定义事件类提供Tuple�c�，用户不可自定义事件类�Q?br />但是可以命名field和注册序列化�?/td>

处理单元 Processing Elements�Q�内�|�PE处理
count,join和aggregate�{�常见�Q�?/td> Bolt�Q�没有内�|��Q务，提供IBasicBolt处理
自动ack

�W�三方交�?br /> 提供API,Client Adapter/Driver�Q�第三方客户端输入或者输��Z��?/td> 定义Spout用于产生Stream�Q�没有标准输出API

持久�?/td> 提供Persist API规范�Q�可�Ҏ(gu��)��频率或者次数做
持久�?br /> 无特定API�Q�用户可自行选择处理
可靠处理无，可能�?x��)丢�׃��?/td> 提供对事件处理的可靠保证�Q�可选）(j��)
路由 EventType + Keyed attribute + value匚w��
内置count,join和aggregate标准��d�� Stream Groupings:
Shuffle,Fields,All,Global,None,Direct
非常灉|��的�\由方�?/td>
多语�a�支持暂时只支持Java 多语�a�支持良好�Q�本�w�支持Java,Clojure�Q?br />其他非JVM语言通过thrift和进�E�间通讯
Failover
部分支持�Q�数据无法failover 部分支持�Q�数据同��h��法failover
Load Balance
不支�?/td> 不支�?/td>
�q�行处理取决于节�Ҏ(gu��)��目，不可调节可配�|�worker和task数目�Q�storm�?x��)尽量将worker和task均匀分布
动态增删节�?/td> 不支�?
支持
动态部�|?br /> 不支�?/td> 支持
web��理不支�?/td> 支持
代码成熟�?/td> 半成�?/td> 成熟
�z�跃�?/td> �?/td> �z�跃
�~�程 �~�程 + XML配置
�U�编�E?br />
参考文�?/td> http://docs.s4.io/ https://github.com/nathanmarz/storm/wiki/
http://xumingming.sinaapp.com/category/storm/ �Q�非常好的中文翻�?

dennis 2011-11-08 22:25 发表评论

Zookeeper的web��理应用

dennis — Sun, 05 Jun 2011 17:13:00 GMT
Update: 如果遇到在search不存在的path报段错误�Q�这是node-zookeeper的一个bug�Q�我暂时修复�?ji��n)下�q�提交了(ji��n)pull request�Q�你可以暂时用我修改的node-zookeeper https://github.com/killme2008/node-zookeeper

    我们已经开始在产品使用zookeeper�?ji��n)，那么�l�护工具也必焉��要，所谓兵马未动，�_�草先行。请同事帮忙看过几个开源项目后�Q��ƈ没有特别让�h满意的�?br />    我想要的功能比较��单。首先，希望能将zookeeper集群的数据展�C�Zؓ(f��)�?w��i)�Ş�l�构�Q�跟zookeeper模型保持一致。可以逐步展开每层的节点，每次展开都是延迟加蝲从zk里取数据�Q�这样不�?x��)对zk造成太大压力。其�ơ，除了(ji��n)展示�?w��i)�Ş�l�构外，我还希望它能展示每个path的属性和数据�Q�更�q�一步，如果数据是文本的�Q�我希望它可�~�辑。当�?d��ng)��因��?f��)�~�辑功能是比较危险的行�ؓ(f��)�Q�我�q�希望这个管理工��h��个简单的授权验证机制�?br />
    最�l�，我自己写�?ji��n)这么个东西�Q�取名�ؓ(f��)node-zk-browser�Q�基于node.js�?a >express.js框架�?a >node-zookeeper客户端实现的。我��它攑֜��?ji��n)github�?br />
    https://github.com/killme2008/node-zk-browser

    你可以自己搭��个小app�Q?npm几乎能帮你搞定大部分工作。界面不��观�Q�实用�ؓ(f��)主，几张�q�行时截�?br />

dennis 2011-06-06 01:13 发表评论

dennis — Thu, 20 Jan 2011 15:23:00 GMT

    最�q�因为空闲时间有一些，所以去看了(ji��n)不少开源项目，大部分东西如果看�q�不记录下来�Q�其实还是相当于没看�Q�所以想惌��是有必要摘要记录一下�?br />
    首先是去�?ji��n)解�?a >zookeeper�q�个��目�Q�基于paxos��法的分布式服务�l��g�Q�同事对此有非常深入的研�I�和介绍�Q�具体可以看我们�?a >团队Blog。��o(h��)我感慨的是这么一个非帔R��以理解的��法�Q�却用一个简单的�?w��i)状目录模型表达出来�Q��ƈ且在�q�个模型的基��上衍生出�U�种应用�Q�集��感知、分布式锁、分布式队列、分布式�q�发原语�{�等�Q�具体可以看文档�l�出�?a >recipes。在实现�q�些应用的时候，�H�出��的是避免�|�络风暴�Q�例如分布式锁的实现�Q�竞争创建子节点�Q�节点序列号最��的获取锁，其他节点�{�待�Q�但是等待在什么条件上是有讲究的，如果所有节炚w��{�待最��节点的删除事�g�Q�那么当最��节炚w��N��的时候，��需要广播消息给所有其他等待的节点�Q�换一个思�\�Q�如果每个等待节点只是等待比它序列号��的节点上，那么��可以避免这�U�广播风��_(d��)��变成一个顺序唤醒的�q�程。因此尽��有�?ji��n)zookeeper帮助实现分布式这些服务，但是要实现好仍然有一定难度，具体可以参考官方例子。我本来萌生�?ji��n)基于zookeeper实现一套封装好的类似j.u.c的服务框�Ӟ��后来在邮件列表发现已�l�有人搞�?ji��n)这么一个基��c�d��攑֜�github�?https://github.com/openUtility/menagerie 。不�q�我没有�l�箋深入�?ji��n)，有兴��的朋友可以瞧瞧�?br />
    然后又去看了(ji��n)我们淘宝开源的TimeTunnel。TimeTunnel你可以理解成一个消息中间�g�Q�它整个设计跟我们的产品相当接近�Q�但是两者的目的完全不同�Q�tt��的是高吞吐量�Q�而notify��的则是可靠性。TT的通讯层直接采用Facebook的thrift�Q��ƈ且利用zookeeper做集��管理和路由。TT的代码质量很好，有兴��可以拉出来看一下，�q�且对zookeeper的应用也是一个典型的案例。TT在高可用性上的方案也很有特色�Q�所有的服务器节点�Ş成一个环�Q�两两相互主辅备份，一个节�Ҏ(gu��)��?ji��n)，后箋节点仍然可以提供服务直到主节点回来，有点�c�M��一致性哈希的概念。节点的��M��关系和顺序也是通过zookeeper保证。消息顺序的实现是通过�U�Cؓ(f��)router的�\由到固定节点做传输，router默认是策略不是固定而是RR。TT的数据存储优先放在内存，�q�设�|�了(ji��n)一个内存状�늛�视的�l��g�Q�当发现内存放不下的时候，swap到磁盘文件缓存，实现�c�M��内存换页的功能。正常情冉|��据都应该在内存，当然如果可靠�U�别要求高的话可以先存磁盘再传输。TT目前仍然�q�是比较适合传输日志�q�样的文本增量数据，�q�且提供�?ji��n)TailFile�q�样的python脚本帮你做这个事情，�q�个脚本可以通过checkpoint做断点箋传。在学习(f��n)�q�个��目的时候，发现文档有很大问题，要么错误�Q�要么遗漏，�q�且代码也不是最新的�Q�我估计开源出来外面的人用的还不太多，希望慢慢能搞的更好一些�?br />
    跟TT�c�M��Q�另一个追求高吞吐量的MQ是linkedin开源的kafka。Kafka��p��q�个名字一��P��设计非常独特。首先，kafka的开发者们认�ؓ(f��)不需要在内存里缓存什么数据，操作�pȝ��的文件缓存已�l��够完善和强大�Q�只要你不搞随机写，��序��d��的性能是非帔R��效的。kafka的数据只�?x��)顺序append�Q�数据的删除�{�略是篏�U�到一定程度或者超�q�一定时间再删除。Kafka另一个独特的地方是将消费者信息保存在客户端而不是MQ服务器，�q�样服务器就不用记录消息的投递过�E�，每个客户端都自己知道自己下一�ơ应该从什么地方什么位�|�读取消息，消息的投递过�E�也是采用客��L(f��ng)��d��pull的模型，�q�样大大减轻�?ji��n)服务器的负担。Kafka�q�强调减��数据的序列化和拯��开销�Q�它�?x��)将一些消息组�l�成Message Set做批量存储和发送，�q�且客户端在pull数据的时候，��量以zero-copy的方式传输，利用sendfile�Q�对应java里的FileChannel.transferTo/transferFrom�Q�这��L(f��ng)��高��IO函数来减��拷贝开销。可见，kafka是一个精�?j��)设计，特定于某些应用的MQ�pȝ��Q�这�U�偏向特定领域的MQ�pȝ��我估计会(x��)��来��多�Q�垂直化的��品策略值的考虑�?br />
     在此期间�Q�我�q�重新去看了(ji��n)activemq和hornetq的存储实玎ͼ�从实��C��大家都大同小异，append log + data file的模式。Activemq采用异步队列写来提高吞吐量，而Hornetq�q�脆��q��接利用JNI调用原生aio来实现高性能。在搜烦(ch��)Java的aio实现的时候，��y发现Mina的沙��里有个aioj的实玎ͼ�源码在：(x��)https://svn.apache.org/repos/asf/mina/sandbox/mheath/aioj/ 。我��试�?ji��n)完全可用，也尝试改造我们的��盘存储�l��g�Q�可惜提升不多，估计不从整个设计上调整服务器�Q�不大可能从aio上获益�?br />
     最�q�也重新看�v�?ji��n)clojure的一些开源项目，clojure的开源资源在github上也非常丰富�Q�有待挖掘，下次有机�?x��)再��试介绍一二�?br />



dennis 2011-01-20 23:23 发表评论

�W�一个MapReduce��d��

dennis — Sat, 23 Aug 2008 03:08:00 GMT
    前两天在公司内网上搭�?ji��n)�?个节点hadoop集群�Q�暂时没有多大实际意义，仅用作自��q��试。遇到的问题在阿里巴巴这位仁兄的�?a >Hadoop集群配置和��用技�?/a>》都有提到的。也遇到�?ji��n)reduce��d��卡住的问题，只需要在每个节点�?etc/hosts��集��中的机器都配置上即可解冟�?br />    今天��一个日志统计�Q务用Hadoop MapReduce框架重新实现�?ji��n)一�ơ，数据量�ƈ不大�Q�每天分析一�?G多的日志文�g�|�了(ji��n)。先前是用Ruby配合cat、grep命��o(h��)搞定�Q�运行一�ơ在50多秒左右�Q�如果纯�_�w��用Ruby的话CPU占用率非帔R��而且慢的无法忍受�Q�利用IO.popen调用linux的cat、grep命��o(h��)先期处理��好多了(ji��n)。看看这个MapReduce��d��Q?br />
public class GameCount extends Configured implements
        org.apache.hadoop.util.Tool {
    public static class MapClass extends MapReduceBase implements
            Mapper<LongWritable, Text, Text, IntWritable> {

        private Pattern pattern;

        public void configure(JobConf job) {
            String gameName = job.get("mapred.mapper.game");
            pattern = Pattern.compile("play\\sgame\\s" + gameName
                    + ".*uid=(\\d+),score=(-?\\d+),money=(-?\\d+)");
        }

        @Override
        public void map(LongWritable key, Text value,
                OutputCollector<Text, IntWritable> output, Reporter reporter)
                throws IOException {
            String text = value.toString();
            Matcher matcher = pattern.matcher(text);
            int total = 0; // ��L��?/span>
            while (matcher.find()) {
                int record = Integer.parseInt(matcher.group(2));
                output.collect(new Text(matcher.group(1)), new IntWritable(
                        record));
                total += 1;
            }
            output.collect(new Text("total"), new IntWritable(total));
        }
    }

    public static class ReduceClass extends MapReduceBase implements
            Reducer<Text, IntWritable, Text, IntWritable> {

        @Override
        public void reduce(Text key, Iterator<IntWritable> values,
                OutputCollector<Text, IntWritable> output, Reporter reporter)
                throws IOException {
            int sum = 0;
            while (values.hasNext()) {
                sum += values.next().get();
            }
            output.collect(key, new IntWritable(sum));
        }

    }

    static int printUsage() {
        System.out
                .println("gamecount [-m ] [-r ]   ");
        ToolRunner.printGenericCommandUsage(System.out);
        return -1;
    }

    public int run(String[] args) throws Exception {
        JobConf conf = new JobConf(getConf(), GameCount.class);
        conf.setJobName("gamecount");

       conf.setOutputKeyClass(Text.class);
        conf.setOutputValueClass(IntWritable.class);

        conf.setMapperClass(MapClass.class);
        conf.setCombinerClass(ReduceClass.class);
        conf.setReducerClass(ReduceClass.class);

        List<String> other_args = new ArrayList<String>();
        for (int i = 0; i < args.length; ++i) {
            try {
                if ("-m".equals(args[i])) {
                    conf.setNumMapTasks(Integer.parseInt(args[++i]));
                } else if ("-r".equals(args[i])) {
                    conf.setNumReduceTasks(Integer.parseInt(args[++i]));
                } else {
                    other_args.add(args[i]);
                }
            } catch (NumberFormatException except) {
                System.out.println("ERROR: Integer expected instead of "
                        + args[i]);
                return printUsage();
            } catch (ArrayIndexOutOfBoundsException except) {
                System.out.println("ERROR: Required parameter missing from "
                        + args[i - 1]);
                return printUsage();
            }
        }
        // Make sure there are exactly 2 parameters left.
        if (other_args.size() != 3) {
            System.out.println("ERROR: Wrong number of parameters: "
                    + other_args.size() + " instead of 2.");
            return printUsage();
        }
        FileInputFormat.setInputPaths(conf, other_args.get(0));
        FileOutputFormat.setOutputPath(conf, new Path(other_args.get(1)));
        conf.set("mapred.mapper.game", args[2]);
        JobClient.runJob(conf);
        return 0;
    }

    public static void main(String[] args) throws Exception {
        long start = System.nanoTime();
        int res = ToolRunner.run(new Configuration(), new GameCount(), args);
        System.out.println("running time:" + (System.nanoTime() - start)
                / 1000000 + " ms");
        System.exit(res);
    }

}

    代码没啥好解释的�Q�就是分析类�?play game DouDiZhu result:uid=1871653,score=-720,money=0"�q�样的字�W�串�Q�分析每天玩家玩游戏的次数、分数等。打包成GameCount.jar�Q�执行：(x��)

hadoop jar GameCount.jar test.GameCount /usr/logs/test.log /usr/output GameName

   �l�计的运行时间在100多秒�Q�适当增加map和reduce��d��个数没有多大改善�Q�不�q�CPU占用率还是挺高的�?br />

dennis 2008-08-23 11:08 发表评论

dennis — Tue, 19 Aug 2008 15:47:00 GMT
    �q�程调用�׃��涉及(qi��ng)到服务器和客��L(f��ng)��{�多个节点以�?qi��ng)需要通过�|�络通讯�{�，�?x��)引入更多的故障可能。本地调用的语义都是恰好一��?/strong>�Q�不�?x��)多也不会(x��)少。而远�E�调用的语义��比较复杂，依据三个选择��生不同的语义�Q?br /> 1�Q�重发请求消息：(x��)客户端是否重发请求，直到收到应答或者认定服务器故障为止
2�Q�过滤重复消息：(x��)当客��L(f��ng)��重发��h��时候，服务器是否过滤重复的��h��
3�Q�重传结果：(x��)服务器是否保存结果消息的历史�Q�以便服务器不用重新执行操作��p��重传�l�果�?br />
对这三个选择的不同组合将产生三种可能的远�E�调用语义：(x��)
重发��h��消息 �q��o(h��)重复消息重传�l�果            语义

�?nbsp;           不适用       不适用             或许
�?nbsp;           �?nbsp;          重新执行操作       臛_��一��?br /> �?nbsp;           �?nbsp;          重传�l�果           臛_��一��?br />
或许调用语义�Q�远�E�方法可能执行一�ơ，或者根本不执行�Q�在消息遗漏或者服务器崩溃的情况下�Q?br />
臛_��一�ơ调用语�?/strong>�Q�远�E�方法要嘛至��执行一�ơ�ƈ�q�回�l�果�Q�要嘛返回一个异常。因为启用了(ji��n)重发��h��消息�Q�服务器也重新执行操作，因此�q�程调用臛_��执行一�ơ，除非服务器崩溃；但是�Q�由于服务器重新执行操作�Q�如果调用不是幂�{�的�Q�那么多�ơ重复执行将产生副作用叠加，可能不符合预期需求。对于幂�{�操作，臛_��一�ơ调用语义是可以接受的�?br />
臛_��一�ơ调用语�?/strong>�Q�在此语义下�Q�服务器�?x��)过滤重复的��h��Q��ƈ且缓存执行的�l�果重传而非重新执行。因此远�E�调用同样也是返回调用结果，或者一个异常。在�q�回�l�果的情况下�Q�可以确认服务器恰好执行一�ơ，与本地调用语义一��P��不会(x��)有副作用叠加。如果返回异常，��是通知调用者没有返回结果，�q�程调用要嘛执行�?ji��n)一�ơ，要嘛�Ҏ(gu��)��没有执行。��M��Q�远�E�调用至多执行一�ơ�?br />
Java RMI的调用语义是臛_��一�ơ�?br />

dennis 2008-08-19 23:47 发表评论

dennis — Fri, 15 Aug 2008 14:38:00 GMT
    分布式文件系�l�的设计需求大概是�q�么几个�Q�透明性、�ƈ发控制、可伸羃性、容错以�?qi��ng)安全需求等。我惌��试从�q�几个角度去观察HDFS的设计和实现�Q�可以更清楚地看出HDFS的应用场景和设计理念�?br id="vqtw" />     首先是透明性，如果按照开攑ֈ�布式处理的标准确定就�?�U�透明性：(x��)讉K��的透明性、位�|�的透明性、�ƈ发透明性、复刉��明性、故障透明性、移动透明性、性能透明性和伸羃透明性。对于分布式文�g�pȝ��Q�最重要的是希望能达�?个透明性要求：(x��)
1�Q�访问的透明性：(x��)用户能通过相同的操作来讉K��本地文�g和远�E�文件资源。HDFS可以做到�q�一点，如果HDFS讄��成本地文件系�l�，而非分布式，那么��d�� 分布式HDFS的程序可以不用修改地��d��本地文�g�Q�要做修改的是配�|�文件。可见，HDFS提供的访问的透明性是不完全的�Q�毕竟它构徏于java之上�Q�不�? 像NFS或者AFS那样��M��改unix内核�Q�同时将本地文�g和远�E�文件以一致的方式处理�?br id="ag5a" /> 2�Q�位�|�的透明性：(x��)使用单一的文件命名空��_(d��)��在不改变路径名的前提下，文�g或者文仉��合可以被重定位。HDFS集群只有一个Namenode来负责文件系 �l�命名空间的��理�Q�文件的block可以重新分布复制�Q�block可以增加或者减��副本，副本可以跨机架存储，而这一切对客户端都是透明的�?br id="uqk2" /> 3�Q�移动的透明性，�q�一点与位置的透明性类��|��HDFS中的文�g�l�常�׃��节点的失效、增加或者replication因子的改变或者重新均衡等�q�行着复制或者移动，而客��L(f��ng)��和客��L(f��ng)��E�序�q�不需要改变什么，Namenode的edits日志文�g记录着�q�些变更�?br id="u0lr" /> 4�Q�性能的透明性和伸羃的透明性：(x��)HDFS的目标就是构建在大规模廉��h��器上的分布式文�g�pȝ��集群�Q�可伸羃性毋庸置疑，至于性能可以参考它首页上的一些benchmark�?br id="y43o" />
    其次是�ƈ发控�Ӟ��客户端对于文件的��d��不应该媄(ji��ng)响其他客��L(f��ng)��对同一个文件的��d��。要惛_��现近似原生文件系�l�的单个文�g拯��语义�Q�分布式文�g�pȝ��需要做出复杂的交互�Q�例如采用时间戳�Q�或者类似回调承诺（�c�M��服务器到客户端的RPC回调�Q�在文�g更新的时候；回调有两�U�状态：(x��)有效或者取消。客��L(f��ng)��通过��(g��)查回调承诺的状态，来判断服务器上的文�g是否被更新过�Q�。HDFS�q�没有这样做�Q�它的机刉��常简单，��M��旉��都只允许一个写的客��L(f��ng)��Q�文件经创徏�q�写入之后不再改变，它的模型�?font id="nekf33" face="宋体, SimSun">write-one-read-many�Q? 一�ơ写�Q�多�ơ读。这与它的应用场合是一��_(d��)��HDFS的文件大��通常是兆至T�U�的�Q�这些数据不�?x��)经�怿�改，最�l�常的是被顺序读�q�处理，随机��d��，因此 HDFS非常适合MapReduce框架或者web crawler应用。HDFS文�g的大��也军_��?ji��n)它的客��L(f��ng)��不能像某些分布式文�g�pȝ��那样�~�存常用到的几百个文件�?br id="eg92" />
    �W�三�Q�文件复制功能，一个文件可以表�C�Zؓ(f��)其内容在不同位置的多个拷贝。这样做带来�?ji��n)两个好处�?x��)讉K��同个文�g时可以从多个服务器中获取从而改善服务的伸羃性，另外��是提高�?ji��n)容错能力，某个副本损坏了(ji��n)，仍然可以从其他服务器节点获取该文件。HDFS文�g的block��Z��(ji��n)定w��都将被备份，�Ҏ(gu��)��配置�? replication因子来，默认�?。副本的存放�{�略也是很有讲究�Q�一个放在本地机架的节点�Q�一个放在同一机架的另一节点�Q�另一个放在其他机架上。这样可以最大限度地防止因故障导致的副本的丢失。不仅如此，HDFS��L��件的时候也��优先选择从同一机架乃至同一数据中心(j��)的节点上��d��block�?br id="y5m0" />
    �W�四�Q�硬件和操作�pȝ��的异构性。由于构建在java�q�_��上，HDFS的跨�q�_��能力毋庸�|�疑�Q�得益于java�q�_��已经��装好的文�gIO�pȝ��Q�HDFS可以在不同的操作�pȝ��和计��机上实现同��L(f��ng)��客户端和服务端程序�?br id="xbtj" />
    �W�五�Q�容错能力，在分布式文�g�pȝ��中，��量保证文�g服务在客��L(f��ng)��或者服务端出现问题的时候能正常使用是非帔R��要的。HDFS的容错能力大概可以分��Z��个方面：(x��)文�g�pȝ��的容错性以�?qi��ng)Hadoop本��n的容错能力。文件系�l�的定w��性通过�q�么几个手段�Q?br id="eumk" /> 1�Q�在Namenode和Datanode之间�l�持�?j��)蟩��(g��)��，当由于网�l�故障之�cȝ��原因�Q�导致Datanode发出的心(j��)跛_��没有被Namenode正常�? 到的时候，Namenode��׃��?x��)将��M��新的IO操作�z�֏��l�那个Datanode�Q�该Datanode上的数据被认为是无效的，因此Namenode�?x��)检 ��是否有文�gblock的副本数目小于设�|��|��如果��于��p��动开始复制新的副本�ƈ分发到其他Datanode节点�?br id="cm_y" /> 2�Q�检��文件block的完整性，HDFS�?x��)记录每个新创徏的文件的所有block的校验和。当以后��(g��)索这些文件的时候，从某个节点获取block�Q�会(x��)首先��认校验和是否一��_(d��)��如果不一��_(d��)��?x��)从其他Datanode节点上获取该block的副本�?br id="n8ip" /> 3�Q�集��的负蝲均衡�Q�由于节点的失效或者增加，可能��D��数据分布的不均匀�Q�当某个Datanode节点的空闲空间大于一个��(f��)界值的时候，HDFS�?x��)自动从其他Datanode�q�移数据�q�来�?br id="eps9" /> 4�Q�Namenode上的fsimage和edits日志文�g是HDFS的核�?j��)数据结构，如果�q�些文�g损坏�?ji��n)，HDFS��失效�?font id="nekf515" face="宋体, SimSun">因而，Namenode可以配置成支持维护多 �?/span>FsImage�?/span>Editlog的拷贝。�Q何对FsImage或�?/span>Editlog的修改，都将同步到它们的副本上�?/span>它��L��选取最�q�的一致的FsImage�?/span>Editlog使用�?/span>Namenode�?/span>HDFS是单点存在，如果Namenode所在的机器错误�Q�手工的�q�预是必��ȝ��?/span>
5)文�g的删除，删除�q�不是马上从Namenode�U�d��namespace�Q�而是攑֜�/trash目录随时可恢复，直到��过讄��旉��才被正式�U�除�?br id="ggsm" />     再说Hadoop本��n的容错性，Hadoop支持升��和回滚，当升�U�Hadoop软�g时出现bug或者不兼容现象�Q�可以通过回滚恢复到老的Hadoop版本�?br id="w3lt" />     最后一个就是安全性问题，HDFS的安全性是比较��q��Q�只有简单的与unix文�g�pȝ��c�M��的文件许可控�Ӟ��未来版本�?x��)实现类似NFS的kerberos验证�pȝ��?br id="rafz" />
    �ȝ��下：(x��)HDFS作�ؓ(f��)通用的分布式文�g�pȝ��q�不适合�Q�它在�ƈ发控制、缓存一致性以�?qi��ng)小文�g��d��的效率上是比较弱的。但是它有自己明��的设计目标�Q�那��是�? 持大的数据文�Ӟ��兆至T�U�）(j��)�Q��ƈ且这些文件以��序��Mؓ(f��)主，以文件读的高吞吐量�ؓ(f��)目标�Q��ƈ且与MapReduce框架紧密�l�合�?br id="mnfv2" />



dennis 2008-08-15 22:38 发表评论

HDFS用户指南�Q�翻译）(j��)

dennis — Thu, 14 Aug 2008 12:24:00 GMT
HDFS用户指南
原文地址�Q�http://hadoop.apache.org/core/docs/current/hdfs_user_guide.html
译者：(x��)dennis zhuang(killme2008@gmail.com),有错误请指正�Q�多谢�?br id="o3qg0" />
目的

本文档可以作��Z��用Hadoop分布式文件系�l�用��L(f��ng)��L(f��ng)��Q�无论是��HDFS应用在一个Hadoop集群中还是作��Z��个单独的分布式文件系�l��用。HDFS被设计成可以马上在许多环境中工作��h��Q�那么一些HDFS的运行知识肯定能大大地帮助你对一个集��做配置改进和诊断�?br id="bz6u" />

概览

HDFS是Hadoop应用的主要分布式存储。一个HDFS集群�׃��个管理文件系�l�元数据的NameNode�Q�和存储实际数据的一些Datanode�l�成。HDFS的架构在�q�里有详�l�描�q�。这个用��h��南主要提供给需要跟HDFS集群打交道的用户或者管理员。HDFS架构文章中的图描�l�了(ji��n)Namenode、Datanode和客��L(f��ng)��们之间的基本交互。本质上�Q�客��L(f��ng)��与Namenode通讯获取或者修�Ҏ(gu��)��件的元数据，�? Datanode�q�行实际的IO操作�?br id="l_0z0" />

下面的列表应该是大多数用户关�?j��)的HDFS�H�出特点。斜体字的术语将在后面详�l�描�q��?/p>
1�Q�Hadoop�Q�包括HDFS�Q�非帔R��合廉�h(hu��n)机器上的分布式存储和分布式处理。它是容错的、可伸羃的，�q�且非常易于扩展。�ƈ且，以简单性和适用性著�U�的Map-Reduce是Hadoop不可或缺的组成部分�?/p>
2�Q�HDFS的默认配�|�适合于大多数安装的应用。通常情况下，只有在一个非常大规模的集��上才需要修攚w��认配�|��?/p>
3�Q�HDFS是用java�~�写的，支持大多数��^台�?/p>
4�Q�支持shell命��o(h��)行风格的HDFS目录交互�?/p>
5�Q�Namenode和Datanode都内��Z��(ji��n)web服务器，可以方便地查看集��的状�?/p>
6�Q�HDFS�l�常性地实现新的�Ҏ(gu��)��和改进�Q�下面是HDFS中的一些有用特性的子集�Q?/p>
   文�g许可和授�?/em>

   Rack awareness:当调度�Q务和分配存储的时候将节点的物理位�|�考虑�q�去�?/p>
   Safemode(安全模式�Q?/em>�Q�用于维护的一个管理状�?/p>
   fsck�Q?诊断文�g�pȝ��的一个工��P��用来查找丢失的文件或者block

   Rebalancer:当数据在Datanode间没有均匀分布的时候，用于重新�q��集群的工�?/p>
   升��和回�?/em>�Q�当Hadoop软�g升��Q�在升��遇到不可预期的问题的时候，可以回滚到HDFS升��前的状�?/p>
   二��Namenode�Q�帮助Namenode�l�持包含�?ji��n)HDFS修改的日志的文�g�Q�edits日志文�g,下文谈到�Q�大��在限制范围内�?br id="ubzs" />

前提条�g

下面的文档描�q�C��(ji��n)一个Hadoop集群的安装和讄��Q?br id="px_d0" />

Hadoop Quickstart�Q�给初次使用用户

Hadoop Cluster Setup 大规模、分布式集群

本文档的剩余部分假设你已�l�搭讑�ƈ�q�行�?ji��n)一个至��拥有一个Datanode的HDFS。基于本文档的目的，Namenode和Datanode可以�q�行在同一台机器上�?br id="tegj1" />

Web接口

Namenode和Datanode分别跑了(ji��n)一个内�|�的web服务器，来展现集��当前状态的一些基本信息。在默认配置下，Namenode的首��地址是http://namenode:50070�Q�namenode��是Namenode节点所在机器IP或者名�U�ͼ�(j��)。这�? ��面列出�?ji��n)集��中的所有datanode以及(qi��ng)集群的基本统计。web接口同样可以用于��览文�g�pȝ��Q�点击Namenode首页上的“Browse the file system"链接�Q��?br id="lb5-" />

Shell命��o(h��)

Hadoop包括�?ji��n)多�U�shell风格的命令，用于跟HDFS或者Hadoop支持的其他文件系�l�交互。命�? bin/hadoop fs -help 可以列出Hadoop shell支持的命令。更�q�一步，bin/hadoop fs -help command 可以展现特定命��o(h��)command的帮助细节。这些命令支持一般文件系�l�的操作�Q�例如拷贝文件、修�Ҏ(gu��)��件权限等。同时也支持�?ji��n)部分HDFS�Ҏ(gu��)��的命令，例如修改文�g的replication因子�?br id="wep40" />

DFSAdmin命��o(h��)

'bin/hadoop dfsadmin' 命��o(h��)支持一些HDFS��理功能的操作�?bin/hadoop dfsadmin -help'可以列出所有当前支持的命��o(h��)。例如：(x��)

-report : 报告HDFS的基本统计信息。部分信息同时展现在Namenode的web首页上�?nbsp;

-safemode : ��管通常�q�不需要，��理员还是可以通过手工操作�q�入或者离开safemode状�?

-finalizeUpgrade : �U�除上一�ơ升�U�时集群所做的备䆾�?

二��Namenode

Namenode��对文�g�pȝ��的修改存储在一个原生文件系�l�文件中�Q�名为edits的文�Ӟ��(j��)。当Namenode启动的时候，它从映像文�g�Q�fsimage)��d��HDFS的状态，然后��edits日志文�g中的修改作用在此内存状态上�Q�接着��得到的新的HDFS状态写�? fsimage�Q�后�l�的正常操作开始于一个空的edits日志文�g。由于Namenode仅仅在启动的时候将fsimage和edits合�ƈ�Q�因此在一�? 大的集群上经�q�一定时间操作后�Q�edits文�g��会(x��)非常大。由此带来的一个副作用��是下次Namenode的重新启动将��p��很长旉��。二�U? Namenode��是��Z��(ji��n)解决�q�个问题�Q�它�?x��)周期性地合�ƈfsimage和edits日志文�g�Q��ƈ且将edits日志文�g的大��保持在限制范围内。通常�? �?x��)跑在另一个机器上�Q�因为它的内存要求跟主namenode一栗��二�U�Namenode可以通过'bin/start-dfs.sh'启动在conf /masters配置文�g里配�|�的节点上�?br id="s4h2" />

Rebalancer

HDFS的数据可能不�?x��)��L��在Datanode之间分布得很一致。一个常见的原因是往现有的集��中加入�?ji��n)新的Datanode。当分配block的时候，Namenode依据几个参数来决定哪个datanode来接受这些block。一些需要考虑的因素如下：(x��)

1�Q�一个block的副本存攑֜�正在写该block的节点上

2�Q�需要将一个block的副本扩展到其他机架上，防止因�ؓ(f��)整个机架故障��D��的数据丢失�?/p>
3�Q�副本之一通常攑֜�同一个机架的另一个节点上�Q�减��跨机架的网�l�IO

4�Q�将HDFS数据均匀一致地分布在集��中的datanode上�?/p>
    ��Z��q�些�怺�竞争的因素，数据可能不会(x��)在Datanode之间扩展得一致。HDFS�l�管理员提供�?ji��n)一个工��P��用来分析block的分配情况和在datanode之间重新�q��数据。这个功能暂未实玎ͼ�它的描述可以在这�?nbsp;PDF文档中看刎ͼ�记录�~�号HADOOP-1652.

Rack Awareness

典型的大规模Hadoop集群是部�|�在��C��机架上的�Q�那么显然同一个机架内的节炚w��的网�l�通讯比之不同机架间节炚w��的网 �l�通讯更可取。另外，Namenode�?x��)尝试将block的副本分布在��C��机架中以提高定w��性。Hadoop让集��管理员来决定某个节点从属于哪个机架�Q? 通过配置变量dfs.network.script来实现。当�q�个脚本有配�|�的时候，每个节点都运行该脚本来决定它的rackid。默认安装假设所有的�? 点从属于同一个机架。这个特性和配置�q�一步的阐述在这�?a id="o3qg116" >PDF文档�Q�编号�ؓ(f��) HADOOP-692�?

Safemod(安全模式�Q?

当Namenode启动的时候，它从fsimage和edits日志两个文�g中加载文件系�l�的状态。然后等�? datanode报告他们的block信息�Q�以侉K��止Namenode在确认block副本是否��_��前过早地开始复制block。这�D�|��间的 Namenode��是处于所谓safemode状态。处于safemode的Namenode也是HDFS集群的只��L��型，此时不允�怓Q何对文�g�pȝ��或�? block的修攏V��正常情况下�Q�Namenode�?x��)在开始后自动退出safemode。如果有需要，HDFS可以通过'bin/hadoop dfsadmin -safemode'命��o(h��)昑ּ�地进入safemode状态。Namenode的web首页昄��当前的safemode是否打开。更详细的描�q�和配置可以�? �?a id="o3qg128" >setSafeMode()�Ҏ(gu��)��的JavaDoc�?/p>
�? 注：(x��)详细介绍下safemode的配�|�参敎ͼ�在safemode状态，Namenode�?x��)等待所有的datanode报告他们自己的block信息�Q�看�? 所有的block的副本是否达到最低要求的数目�Q�这个数目可以通过dfs.replication.min参数配置�Q�默认是1,也就是至��要求有一个副本。当报告合格的Datanode的数目达��C��定百分比�Q�Namenode才会(x��)��d��safemode状态。这个百分比也是可配�|�的�Q�通过 dfs.safemode.threshold.pct参数�Q�默认是0.999f(也就是要�?9.9%的Datanode 合格�Q�。Namenode在合格的datanode数目辑ֈ�要求的时候，�q�不是马上离开safemode状态，�?x��)有一个扩展时��_(d��)��让剩余的 datanode来报告block信息�Q�这个扩展时间默认是30�U�，可以通过dfs.safemode.extension参数配置�Q�单位是毫秒�?/tt>
Fsck HDFS提供�?ji��n)fsck命��o(h��)用来��(g��)��各�U�各��L(f��ng)��不一致性。fsck被设计用来报告各�U�文件的问题�Q�例如某个文件丢��q�� block�Q�block的副本数目是否低于设�|�等。不同于传统的一般原生文件系�l�的fsck命��o(h��)�Q�hdfs的fsck命��o(h��)�q�不修正所��(g��)��到的错误。通常�? 况下�Q�Namenode�?x��)自动修正大多数可以被修复的错误�Q�HDFS的fsck不是Hadoop shel的命令，可以通过'bin/hadoop fsck'执行�Q�可以运行在整个文�g�pȝ��上或者一个文件子集上�?br id="as3m" /> 升��和回�? 当升�U�某个集��的Hadoop的时候，正如��M��软�g的升�U�一��P��可能�?x��)引入新的bug或者不兼容的修改导致现有的应用�? 现过��L��有发现的问题。在所有重要的HDFS安装应用中，是不允许出现因丢�׃�Q何数据需要从零开始重启HDFS的情��c(di��n)��HDFS允许��理员恢复到 Hadoop的早期版本，�q�且��集��的状态回滚到升��前。HDFS的升�U�细节请参�?upgrade wiki。HDFS在�Q何时间只能有一个备份，因此在升�U�前�Q�管理员需要通过'bin/hadoop dfsadmin -finalizeUpgrade'命��o(h��)�U�除现有的备份。下面简要描�q�C��(ji��n)典型的升�U�过�E�：(x��) 1�Q�在升��Hadoop前，如果已经存在备䆾�Q�需要先�l�束�Q�finalize)它。可以通过'dfsadmin -upgradeProgress status'命��o(h��)查询集群是否需要执行finalize 2)停止集群�Q�分发部�|�新版本的Hadoop 3�Q�执行新版本的hadoop�Q�通过��d�� -upgrade 选项�Q�例�?bin/start-dfs.sh -upgrade 4)大多数情况下�Q�集��在升��后可以正常运行。一旦新的HDFS在运行若�q�天的操作后没有出现问题�Q�那么就可以�l�束(finalize)�q�次升��。请注意�Q�在升��前删除的文�g�q�不释放在datanode上的实际��盘�I�间,直到集群被结束（finalize)升��前�?/p> 5�Q�如果有需要回到老版本的Hadoop�Q�那么可以：(x��)    a)停止集群�Q�分发部�|�老版本的Hadoop    b)通过rollback选项启动集群�Q�例如bin/start-dfs.sh -rollback 文�g许可和安�?/h2> 文�g许可的设计与其他�q�_��(如linux) 的文件系�l�类伹{��在当前实现�Q�安全被限制在简单的文�g许可上。启动Namenode的用戯��作�ؓ(f��)HDFS的超�U�用戗��HDFS的未来版本将支持�|�络验证�Q? 例如Kerberos�Ҏ(gu��)��Q�译注：(x��)MIT开发的一个验证系�l�）(j��)的用户验证以�?qi��ng)数据传输的加密。更详细的讨论参�?a id="o3qg166" >Permissions User and Administrator Guide�? 伸羃�?br id="m-bp" /> Hadoop正运行在成千上万个节点的集群上�? PoweredBy Hadoop�? ��Z��(ji��n)一些部�|�Hadoop在大规模集群上的�l�织和机构。HDFS在每个集��上只有一个Namenode节点�Q�Namenode节点上可用内存是当前伸羃�? 的主要限制。在非常大规模的集群上，增加HDFS中存储的文�g的��^均大��，��可以帮助提高集��的大小而不用增加Namenode的内存需求。默认的配置�? 能不适合非常大规模的集群应用�?a id="o3qg174" >Hadoop FAQ��列��Z��(ji��n)对于大规模Hadoop集群的配�|�改�q�徏议�? 兌��文档本用��h��南可作�ؓ(f��)使用HDFS很好的一个�v点，在本文档持箋改进的同�Ӟ��有一些非常有价值的关于Hadoop和HDFS的文档资料可供参考。下列资料可作�ؓ(f��)�q�一步探索的��L(f��ng)��Q?br id="ugay" /> Hadoop Home Page : Hadoop一切的起始��c(di��n)�? Hadoop Wiki :��q��区维护的wiki文档�?/li> FAQ from Hadoop Wiki. Hadoop JavaDoc API. Hadoop User Mailing List : core-user[at]hadoop.apache.org. ��览conf/hadoop-default.xml文�g�Q�它包括�?ji��n)当前可用配�|�变量的概括介绍�? dennis 2008-08-14 20:24 发表评论
dennis — Thu, 05 Jun 2008 06:29:00 GMT Hadoop分布式文件系�l�：(x��)架构和设计要�?/span> 原文�Q�http://hadoop.apache.org/core/docs/current/hdfs_design.html 一、前提和设计目标 1、硬仉��误是常态，而非异常情况�Q?/span>HDFS可能是有成百上千�?/span>server�l�成�Q��Q何一个组仉��有可能一直失效，因此错误��(g��)��和快速、自动的恢复�?/span>HDFS的核�?j��)架构目标�?/span> 2、跑�?/span>HDFS上的应用与一般的应用不同�Q�它们主要是以流式读��Z��Q�做扚w��处理�Q�比之关注数据访问的低�g�q�问题，更关键的在于数据讉K��的高吞吐量�?/span> 3�?/span>HDFS以支持大数据集合为目标，一个存储在上面的典型文件大��一般都在千兆至T字节�Q�一个单一HDFS实例应该能支撑数以千万计的文件�?/span> 4�? HDFS应用�Ҏ(gu��)��件要求的�?/span>write-one-read-many讉K��模型。一个文件经�q�创建、写�Q�关闭之后就不需要改变。这一假设��化了(ji��n)数据一致性问题，佉K��吞吐量的数据讉K��成�ؓ(f��)可能。典型的�?/span>MapReduce框架�Q�或者一�?/span>web crawler应用都很适合�q�个模型�?/span> 5、移动计��的代�h(hu��n)比之�U�d��数据的代价低。一个应用请求的计算�Q�离它操作的数据��近��p��高效�Q�这在数据达到�v量��别的时候更是如此。将计算�U�d��到数据附�q�，比之��数据移动到应用所在显然更好，HDFS提供�l�应用这��L(f��ng)��接口�?/span> 6、在异构的��Y��g�q�_��间的可移植性�?/span> 二�?/span>Namenode�?/span>Datanode     HDFS采用master/slave架构。一�?/span>HDFS集群是有一�?/span>Namenode和一定数目的Datanode�l�成�?/span>Namenode是一个中�?j��)�? 务器�Q�负责管理文件系�l�的namespace和客��L(f��ng)��Ҏ(gu��)��件的讉K��?/span>Datanode在集��中一般是一个节点一个，负责��理节点上它们附带的存储。在�? 部，一个文件其实分成一个或多个block�Q�这�?/span>block存储�?/span>Datanode集合里�?/span>Namenode执行文�g�pȝ��?/span>namespace操作�Q�例�? 打开、关闭、重命名文�g和目录，同时军_��block到具�?/span>Datanode节点的映��?/span>Datanode�?/span>Namenode的指挥下�q�行block的创建、删除和复制�?/span>Namenode�?/span>Datanode都是设计成可以跑在普通的廉�h(hu��n)的运�?/span>linux的机器上�?/span>HDFS采用java语言开发，因此可以�? �|�在很大范围的机器上。一个典型的部��v场景是一台机器跑一个单独的Namenode节点�Q�集��中的其他机器各跑一�?/span>Datanode实例。这个架构�ƈ不排除一台机器上跑多�?/span>Datanode�Q�不�q�这比较?y��u)��见�?/span> 单一节点�?/span>Namenode大大��化了(ji��n)�pȝ��的架构�?/span>Namenode负责保管和管理所有的HDFS元数据，因而用��h��据就不需要通过Namenode�Q�也��是说文件数据的��d��是直接在Datanode上）(j��)�?/span> 三、文件系�l�的namespace    HDFS支持传统的层�ơ型文�g�l�织�Q�与大多数其他文件系�l�类��|��用户可以创徏目录�Q��ƈ在其间创建、删除、移动和重命名文件�?/span>HDFS不支�?/span>user quotas和访问权限，也不支持链接�Q?/span>link)�Q�不�q�当前的架构�q�不排除实现�q�些�Ҏ(gu��)��?/span>Namenode�l�护文�g�pȝ��?/span>namespace�Q��Q何对�? 件系�l?/span>namespace和文件属性的修改都将�?/span>Namenode记录下来。应用可以设�|?/span>HDFS保存的文件的副本数目�Q�文件副本的数目�U�Cؓ(f��)文�g�? replication因子�Q�这个信息也是由Namenode保存�?/span> 四、数据复�?/span>     HDFS被设计成在一个大集群中可以跨机器地可靠地存储��量的文件。它?y��u)��每个文件存储�?/span>block序列�Q�除�?ji��n)最后一�?/span>block�Q�所有的block都是�? ��L(f��ng)��大小。文件的所�?/span>block��Z��(ji��n)定w��都会(x��)被复制。每个文件的block大小�?/span>replication因子都是可配�|�的�?/span>Replication因子�? 以在文�g创徏的时候配�|�，以后也可以改变�?/span>HDFS中的文�g�?/span>write-one�Q��ƈ且严��D��求在��M��时候只有一�?/span>writer�?/span>Namenode全权��? �?/span>block的复�Ӟ��它周期性地从集��中的每�?/span>Datanode接收�?j��)蟩包和一�?/span>Blockreport。心(j��)跛_��的接收表�C��Datanode节点正常�? 作，�?/span>Blockreport包括�?ji��n)�?/span>Datanode上所有的block�l�成的列表�?/span> 1、副本的存放�Q�副本的存放�?/span>HDFS可靠性和性能的关键�?/span>HDFS采用一�U�称�?/span>rack-aware的策略来改进数据的可靠性、有效性和�|�络带宽的利用。这个策略实现的短期目标是验证在生��环境下的表现�Q�观察它的行为，构徏��试和研�I�的基础�Q�以便实现更先进的策略。庞大的HDFS实例一般运行在多个�? 架的计算机�Ş成的集群上，不同机架间的两台机器的通讯需要通过交换机，昄��通常情况下，同一个机架内的两个节炚w��的带宽会(x��)比不同机枉��的两台机器的带宽大�?/span>     通过一个称�?/span>Rack Awareness的过�E�，Namenode军_��?ji��n)每�?/span>Datanode所属的rack id。一个简单但没有优化的策略就是将副本存放在单独的机架上。这样可以防止整个机�Ӟ��非副本存放）(j��)失效的情况，�q�且允许��L��据的时候可以从多个机架�? 取。这个简单策略设�|�可以将副本分布在集��中�Q�有利于�l��g��p�|情况下的负蝲均衡。但是，�q�个��单策略加大了(ji��n)写的代�h(hu��n)�Q�因��Z��个写操作需要传�?/span>block�? 多个机架�?/span>     在大多数情况下，replication因子�?/span>3�Q?/span>HDFS的存攄��略是��一个副本存攑֜�本地机架上的节点�Q�一个副本放在同一机架上的另一个节点，最后一个副本放在不同机架上的一个节炏V��机架的错误�q�远比节点的错误��，�q�个�{�略不会(x��)影响到数据的可靠性和有效性。三分之一的副本在一个节点上�Q�三分之二在一�? 机架上，其他保存在剩下的机架中，�q�一�{�略改进�?ji��n)写的性能�?/span> 2、副本的选择�Q��ؓ(f��)�?ji��n)降低整体的带宽消耗和��d�g�Ӟ��HDFS�?x��)尽量�?/span>reader��L��q�的副本。如果在reader的同一个机架上有一个副本，那么��p��该副本。如果一�?/span>HDFS集群跨越多个数据中心(j��)�Q�那�?/span>reader也将首先��试��L��地数据中�?j��)的副本�?/span> 3�?/span>SafeMode     Namenode启动后会(x��)�q�入一个称�?/span>SafeMode的特�D�状态，处在�q�个状态的Namenode是不�?x��)进行数据块的复制的�?/span>Namenode从所有的 Datanode接收�?j��)蟩包�?/span>Blockreport�?/span>Blockreport包括�?ji��n)某�?/span>Datanode所有的数据块列表。每�?/span>block都有指定的最 ��数目的副本。当Namenode��(g��)��确认某�?/span>Datanode的数据块副本的最��数目，那么�?/span>Datanode��׃��(x��)被认为是安全的；如果一定百分比�Q�这个参数可配置�Q�的数据块检��确认是安全的，那么Namenode��退�?/span>SafeMode状态，接下来它�?x��)确定还有哪些数据块的副本没有达到指定数目，�q�将 �q�些block复制到其�?/span>Datanode�?/span> 五、文件系�l�元数据的持久化     Namenode存储HDFS的元数据。对于�Q何对文�g元数据��生修改的操作�Q?/span>Namenode都��用一个称�?/span>Editlog的事务日志记录下来。例如， �?/span>HDFS中创��Z��个文�Ӟ��Namenode��׃��(x��)�?/span>Editlog中插入一条记录来表示�Q�同��P��修改文�g�?/span>replication因子也将往 Editlog插入一条记录�?/span>Namenode在本�?/span>OS的文件系�l�中存储�q�个Editlog。整个文件系�l�的namespace�Q�包�?/span>block到文�? 的映��、文件的属性，都存储在�U�Cؓ(f��)FsImage的文件中�Q�这个文件也是放�?/span>Namenode所在系�l�的文�g�pȝ��上�?/span>     Namenode在内存中保存着整个文�g�pȝ��namespace和文�?/span>Blockmap的映像。这个关键的元数据设计得很紧凑，因而一个带�?/span>4G内存�? Namenode��_��支撑��量的文件和目录。当Namenode启动�Ӟ��它从��盘中读�?/span>Editlog�?/span>FsImage�Q�将所�?/span>Editlog中的事务�? 用（apply)在内存中�?/span>FsImage �Q��ƈ��这个新版本�?/span>FsImage从内存中flush到硬盘上,然后�?/span>truncate�q�个旧的Editlog�Q�因��个旧�?/span>Editlog的事务都已经作用�?/span>FsImage上了(ji��n)。这个过�E�称�?/span>checkpoint。在当前实现中，checkpoint只发生在Namenode启动�Ӟ��在不久的��来我们��? 实现支持周期性的checkpoint�?/span>     Datanode�q�不知道关于文�g的�Q何东西，除了(ji��n)��文件中的数据保存在本地的文件系�l�上。它把每�?/span>HDFS数据块存储在本地文�g�pȝ��上隔��ȝ��文�g中�? Datanode�q�不在同一个目录创建所有的文�g�Q�相反，它用启发式地�Ҏ(gu��)��来确定每个目录的最��x��件数目，�q�且在适当的时候创建子目录。在同一个目录创�? 所有的文�g不是最优的选择�Q�因为本地文件系�l�可能无法高效地在单一目录中支持大量的文�g。当一�?/span>Datanode启动�Ӟ��它扫描本地文件系�l�，对这些本�? 文�g产生相应的一个所�?/span>HDFS数据块的列表�Q�然后发送报告到Namenode�Q�这个报告就�?/span>Blockreport�?/span> 六、通讯协议     所有的HDFS通讯协议都是构徏�?/span>TCP/IP协议上。客��L(f��ng)��通过一个可配置的端口连接到Namenode�Q�通过ClientProtocol�? Namenode交互。�?/span>Datanode是��?/span>DatanodeProtocol�?/span>Namenode交互。从ClientProtocol�? Datanodeprotocol抽象��Z��个远�E�调�?/span>(RPC�Q�，在设计上�Q?/span>Namenode不会(x��)��d��发�vRPC�Q�而是是响应来自客��L(f��ng)��? Datanode �?/span>RPC��h��?/span> 七、健壮�?/span>     HDFS的主要目标就是实现在��p�|情况下的数据存储可靠性。常见的三种��p�|�Q?/span>Namenode failures, Datanode failures和网�l�分�Ԍ��network partitions)�?/span> 1、硬盘数据错误、心(j��)��x��和重新复制     每个Datanode节点都向Namenode周期性地发送心(j��)跛_��。网�l�切割可能导致一部分Datanode�?/span>Namenode失去联系�? Namenode通过�?j��)蟩包的�~�失��(g��)��到�q�一情况�Q��ƈ��这�?/span>Datanode标记�?/span>dead�Q�不�?x��)将新�?/span>IO��h��发给它们。寄存在dead Datanode上的��M��数据��不再有效�?/span>Datanode的死亡可能引起一�?/span>block的副本数目低于指定��|��Namenode不断地跟�t�需要复制的 block�Q�在��M��需要的情况下启动复制。在下列情况可能需要重新复�Ӟ��(x��)某个Datanode节点失效�Q�某个副本遭到损坏，Datanode上的��盘�? 误，或者文件的replication因子增大�?/span> 2、集��均�?/span>    HDFS支持数据的均衡计划，如果某个Datanode节点上的�I�闲�I�间低于特定的��(f��)界点�Q�那么就�?x��)启动一个计划自动地��数据从一�?/span>Datanode搬移到空闲的Datanode。当�Ҏ(gu��)��个文件的��h��H�然增加�Q�那么也可能启动一个计划创��文�g新的副本�Q��ƈ分布到集��中以满��_��用的要求。这些均衡计划目�? �q�没有实现�?/span> 3、数据完整�?/span> 从某�?/span>Datanode获取的数据块有可能是损坏的，�q�个损坏可能是由�?/span>Datanode的存储设备错误、网�l�错误或者��Y�?/span>bug造成的�?/span>HDFS客户�? 软�g实现�?/span>HDFS文�g内容的校验和。当某个客户端创��Z��个新�?/span>HDFS文�g�Q�会(x��)计算�q�个文�g每个block的校验和�Q��ƈ作�ؓ(f��)一个单独的隐藏文�g保存�q�些校验和在同一�?/span>HDFS namespace下。当客户端检索文件内容，它会(x��)��认�?/span>Datanode获取的数据跟相应的校验和文�g中的校验和是否匹配，如果不匹配，客户端可以选择从其�?/span>Datanode获取�?/span>block的副本�?/span> 4、元数据��盘错误     FsImage�?/span>Editlog�?/span>HDFS的核�?j��)数据结构。这些文件如果损坏了(ji��n)�Q�整�?/span>HDFS实例都将失效。因而，Namenode可以配置成支持维护多 �?/span>FsImage�?/span>Editlog的拷贝。�Q何对FsImage或�?/span>Editlog的修改，都将同步到它们的副本上。这个同步操作可能会(x��)降低 Namenode每秒能支持处理的namespace事务。这个代��h��可以接受的，因�ؓ(f��)HDFS是数据密集的�Q�而非元数据密集。当Namenode重启�? 时候，它��L��选取最�q�的一致的FsImage�?/span>Editlog使用�?/span>    Namenode�?/span>HDFS是单点存在，如果Namenode所在的机器错误�Q�手工的�q�预是必��ȝ��。目前，在另一台机器上重启因故障而停止服务的Namenode�q�个功能�q�没实现�?/span> 5、快�?/span>    快照支持某个旉��的数据拷贝，�?/span>HDFS数据损坏的时候，可以恢复到过��M��个已知正��的旉��炏V�?/span>HDFS目前�q�不支持快照功能�?/span> 八、数据组�l?/span> 1、数据块     兼容HDFS的应用都是处理大数据集合的。这些应用都是写数据一�ơ，��d��是一�ơ到多次�Q��ƈ且读的速度要满��x��式读�?/span>HDFS支持文�g�?/span>write- once-read-many语义。一个典型的block大小�?/span>64MB�Q�因而，文�g��L��按照64M切分�?/span>chunk�Q�每�?/span>chunk存储于不同的 Datanode 2、步�?/span>     某个客户端创建文件的��h��其实�q�没有立卛_��l?/span>Namenode�Q�事实上�Q?/span>HDFS客户端会(x��)��文件数据缓存到本地的一个��(f��)时文件。应用的写被透明地重定向�? �q�个临时文�g。当�q�个临时文�g累积的数据超�q�一�?/span>block的大��（默认64M)�Q�客��L(f��ng)��才会(x��)联系Namenode�?/span>Namenode��文件名插入文�g�p? �l�的层次�l�构中，�q�且分配一个数据块�l�它�Q�然后返�?/span>Datanode的标识符和目标数据块�l�客��L(f��ng)��。客��L(f��ng)��本��C��(f��)时文�?/span>flush到指定的 Datanode上。当文�g关闭�Ӟ��在��(f��)时文件中剩余的没�?/span>flush的数据也�?x��)传输到指定�?/span>Datanode�Q�然后客��L(f��ng)��告诉Namenode文�g已经关闭。此�?/span>Namenode才将文�g创徏操作提交到持久存储。如�?/span>Namenode在文件关闭前挂了(ji��n)�Q�该文�g��丢失�?/span>    上述�Ҏ(gu��)��是对通过�?/span>HDFS上运行的目标应用认真考虑的结果。如果不采用客户端缓存，�׃��|�络速度和网�l�堵塞会(x��)对吞估量造成比较大的影响�?/span> 3、流水线复制     当某个客��L(f��ng)��?/span>HDFS文�g写数据的时候，一开始是写入本地临时文�g�Q�假设该文�g�?/span>replication因子讄��?/span>3�Q�那么客��L(f��ng)��?x��)�?/span>Namenode 获取一�?/span>Datanode列表来存攑։�本。然后客��L(f��ng)��开始向�W�一�?/span>Datanode传输数据�Q�第一�?/span>Datanode一��部分一��部分（4kb)地接收数据，��每个部分写入本��C��库，�q�且同时传输该部分到�W�二�?/span>Datanode节点。第二个Datanode也是�q�样�Q�边收边传，一��部分一��部分地�Ӟ��存储在本��C��库，同时传给�W�三�?/span>Datanode�Q�第三个Datanode��׃��仅是接收�q�存储了(ji��n)。这��是��水�U�式的复制�?/span> �?ji��)、可讉K��?/span>     HDFS�l�应用提供了(ji��n)多种讉K��方式�Q�可以通过DFSShell通过命��o(h��)行与HDFS数据�q�行交互�Q�可以通过java API调用�Q�也可以通过C语言的封�?/span>API讉K��Q��ƈ且提供了(ji��n)��览器访问的方式。正在开发通过WebDav协议讉K��的方式。具体��用参考文档�?/span> 十、空间的回收 1、文件的删除和恢�?/span>     用户或者应用删除某个文�Ӟ��q�个文�g�q�没有立��M��HDFS中删除。相反，HDFS��这个文仉��命名�Q��ƈ转移�?/span>/trash目录。当文�g�q�在/trash�? 录时�Q�该文�g可以被迅速地恢复。文件在/trash中保存的旉��是可配置的，当超�q�这个时��_(d��)��Namenode��׃��(x��)��该文�g�?/span>namespace中删除�? 文�g的删除，也将释放兌��该文件的数据块。注意到�Q�在文�g被用户删除和HDFS�I�闲�I�间的增加之间会(x��)有一个等待时间�g�q��?/span>     当被删除的文件还保留�?/span>/trash目录中的时候，如果用户��x��复这个文�Ӟ��可以��(g��)索浏�?/span>/trash目录�q�检索该文�g�?/span>/trash目录仅仅保存被删�? 文�g的最�q�一�ơ拷贝�?/span>/trash目录与其他文件目录没有什么不同，除了(ji��n)一点：(x��)HDFS在该目录上应用了(ji��n)一个特�D�的�{�略来自动删除文�Ӟ��目前的默认策略是删除保留��过6��时的文�Ӟ��q�个�{�略以后�?x��)定义成可配�|�的接口�?/span> 2�?/span>Replication因子的减��?/span>     当某个文件的replication因子减小�Q?/span>Namenode�?x��)选择要删除的�q�剩的副本。下�ơ心(j��)��x��就��该信息传递给Datanode�Q? Datanode��׃��(x��)�U�除相应�?/span>block�q��攄��_(d��)��同样�Q�在调用setReplication�Ҏ(gu��)��和集��中的空闲空间增加之间会(x��)有一个时间�g�q��?/span> 参考资料：(x��) HDFS Java API: http://hadoop.apache.org/core/docs/current/api/ HDFS source code: http://hadoop.apache.org/core/version_control.html     dennis 2008-06-05 14:29 发表评论

Items\Projects	Yahoo! s4	Twitter Storm
协议	Apache license 2.0	Eclipse Public License 1.0
开发语�a�	Java	Clojure,Java,Clojure�~�写�?ji��n)核心(j��)代�?/td>
�l�构	��M��?j��)化的对�{�结�?br />	有中�?j��)节点nimbus�Q�但非关�?/td>
通信	可插拔的通讯层，目前是基于UDP的实�?/td>	��Z��facebook开源的thrift框架
事�g/Stream	序列�Q�用户可自定义事件类	提供Tuple�c�，用户不可自定义事件类�Q?br />但是可以命名field和注册序列化�?/td>
处理单元	Processing Elements�Q�内�\|�PE处理 count,join和aggregate�{�常见�Q�?/td>	Bolt�Q�没有内�\|��Q务，提供IBasicBolt处理自动ack
�W�三方交�?br />	提供API,Client Adapter/Driver�Q�第三方客户端输入或者输��Z��?/td>	定义Spout用于产生Stream�Q�没有标准输出API
持久�?/td>	提供Persist API规范�Q�可�Ҏ(gu��)��频率或者次数做持久�?br />	无特定API�Q�用户可自行选择处理
可靠处理	无，可能�?x��)丢�׃��?/td>	提供对事件处理的可靠保证�Q�可选）(j��)
路由	EventType + Keyed attribute + value匚w�� 内置count,join和aggregate标准��d��	Stream Groupings: Shuffle,Fields,All,Global,None,Direct 非常灉\|��的�\由方�?/td>
多语�a�支持	暂时只支持Java	多语�a�支持良好�Q�本�w�支持Java,Clojure�Q?br />其他非JVM语言通过thrift和进�E�间通讯
Failover	部分支持�Q�数据无法failover	部分支持�Q�数据同��h��法failover
Load Balance	不支�?/td>	不支�?/td>
�q�行处理	取决于节�Ҏ(gu��)��目，不可调节	可配�\|�worker和task数目�Q�storm�?x��)尽量将worker和task均匀分布
动态增删节�?/td>	不支�?	支持
动态部�\|?br />	不支�?/td>	支持
web��理	不支�?/td>	支持
代码成熟�?/td>	半成�?/td>	成熟
�z�跃�?/td>	�?/td>	�z�跃
�~�程	�~�程 + XML配置	�U�编�E?br />
参考文�?/td>	http://docs.s4.io/	https://github.com/nathanmarz/storm/wiki/ http://xumingming.sinaapp.com/category/storm/ �Q�非常好的中文翻�?

人人草在线视频,91短视频在线,97蜜桃久久

分布式消息中间�gMetaq发布1.4.3

分布式消息中间�gMetaq发布1.4.2

Developer

兌�����目

淘宝开源MQ——metamorphosis的github分支

storm常见问题解答

Zookeeper的web���理应用

�W�一个MapReduce��d��

HDFS用户指南�Q�翻译）(j��)

目的

概览

前提条�g

Web接口

Shell命��o(h��)

DFSAdmin命��o(h��)

二��Namenode

Rebalancer

Rack Awareness

Safemod(安全模式�Q?

Fsck

升��和回�?

伸羃�?br id="m-bp" />

兌���文档

兌��目

Zookeeper的web��理应用

兌��文档