??xml version="1.0" encoding="utf-8" standalone="yes"?>
1、三个部? 客户端、nameserverQ可理解Z控和文g索引,cMlinux的inodeQ、datanodeQ存攑֮际数据)
在这里,client的Ş式我所了解的有两种Q通过hadoop提供的api所~写的程序可以和hdfsq行交互Q另外一U就是安装了hadoop的datanode其也可以通过命o(h)行与hdfspȝq行交互Q如在datanode上上传则使用如下命o(h)行:(x)bin/hadoop fs -put example1 user/chunk/
2、如何写数据q程
3、读取数据过E?/span>
4、容错:(x)W一部分Q故障类型及(qing)其检方法(nodeserver 故障Q和|络故障Q和脏数据问题)
5、容错第二部分:(x)d定w
6、容错第三部分:(x)dataNode 失效
7、备份规?/span>
8、结束语
]]>
Hive 没有专门的数据格式?Hive 可以很好的工作在 Thrift 之上Q控制分隔符Q也允许用户指定数据格式
hive与关pL据库的区别:(x)
数据存储不同QhiveZhadoop的HDFSQ关pL据库则基于本地文件系l?br />
计算模型不同QhiveZhadoop的mapreduceQ关pL据库则基于烦引的内存计算模型
应用场景不同Qhive是OLAP数据仓库pȝ提供量数据查询的,实时性很?关系数据库是OLTP事务pȝQؓ(f)实时查询业务服务
扩展性不同:(x)hiveZhadoop很容易通过分布式增加存储能力和计算能力Q关pL据库水^扩展很难Q要不断增加单机的性能
Hive安装?qing)用攻?br />http://blog.fens.me/hadoop-hive-intro/
R利剑NoSQLpd文章 ?Hive
http://cos.name/2013/07/r-nosql-hive/
1. HDFS
HDFS是Hadoop应用E序中主要的分布式储存系l, HDFS集群包含了一个NameNodeQ主节点Q,q个节点负责理所有文件系l的元数据及(qing)存储了真实数据的DataNodeQ数据节点,可以有很多)。HDFS针对量数据所设计Q所以相比传l文件系l在大批量小文g上的优化QHDFS优化的则是对批量大型文件的讉K和存储?/p>
2. MapReduce
Hadoop MapReduce是一个Y件框Ӟ用以L~写处理量QTBU)数据的ƈ行应用程序,以可靠和定w的方式连?span style="line-height: 1.45em;">大型集群?/span>上万个节点(商用gQ?/span>
3. HBase
Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的?写访问,q对了商用服务器集上的大型表格做Z?#8212;—上百亿行Q上千万列。其核心是Google Bigtable论文的开源实玎ͼ分布式列式存储。就像Bigtable利用GFSQGoogle File SystemQ提供的分布式数据存储一P它是Apache Hadoop在HDFS基础上提供的一个类Bigatable?/p>
4. Cassandra
Apache Cassandra是一个高性能、可U性扩展、高有效性数据库Q可以运行在商用g或云基础设施上打造完的d关键性数据^台。在横跨数据中心的复制中QCassandra同类最佻I为用h供更低的延时以及(qing)更可靠的N备䆾。通过log-structured update、反规范化和物化视图的强支持以及(qing)强大的内|缓存,Cassandra的数据模型提供了方便的二U烦引(column indexeQ?/p>
5. Hive
Apache Hive是Hadoop的一个数据仓库系l,促进了数据的lDQ将l构化的数据文g映射Z张数据库表)、即席查询以?qing)存储在Hadoop兼容pȝ中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言Q同时当使用q个语言表达一?span style="line-height: 1.45em;">逻辑变得低效和繁?/span>ӞHiveQLq允怼l的Map/ReduceE序员用自己定制的Mapper和Reducer?/span>
6. Pig
Apache Pig是一个用于大型数据集分析的^収ͼ它包含了一个用于数据分析应用的高语言以及(qing)评估q些应用的基设施。Pig应用的闪光特性在于它们的l构l得起大量的q行Q也是说让它们支撑起非常大的数据集。Pig的基设施层包含了产生Map-Reduced的编译器。Pig的语a层当前包含了一个原生语a——Pig LatinQ开发的初衷是易于编E和保证可扩展性?/p>
7. Chukwa
Apache Chukwa是个开源的数据攉pȝQ用以监视大型分布系l。徏立于HDFS和Map/Reduce框架之上Q承了Hadoop的可扩展性和E_性。Chukwa同样包含了一个灵zd强大的工具包Q用以显C、监视和分析l果Q以保证数据的用达到最x果?/p>
8. Ambari
Apache Ambari是一个基于web的工P用于配置、管理和监视Apache Hadoop集群Q支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样q提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用E序的能力,以友好的用户界面对它们的性能Ҏ(gu)进行诊断?/p>
9. ZooKeeper
Apache ZooKeeper是一个针对大型分布式pȝ的可靠协调系l,提供的功能包括:(x)配置l护、命名服务、分布式同步、组服务{。ZooKeeper的目标就是封装好复杂易出错的关键服务Q将单易用的接口和性能高效、功能稳定的pȝ提供l用戗?/p>
10. Sqoop
Sqoop是一个用来将Hadoop和关pd数据库中的数据相互{Uȝ工具Q可以将一个关pd数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关pd数据库中?/p>
11. Oozie
Apache Oozie是一个可扩展、可靠及(qing)可扩充的工作调度系l,用以理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical GraphsQDAGsQ。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发Q周期一般决定于旉Q频率)和数据可用性。Oozie与余下的Hadoop堆栈l合使用Q开即用的支持多种cdHadoop作业Q比如:(x)Java map-reduce、Streaming map-reduce、Pig?Hive、Sqoop和DistcpQ以?qing)其它系l作业(比如JavaE序和Shell脚本Q?/p>
12. Mahout
Apache Mahout是个可扩展的机器学习(fn)和数据挖掘库Q当前Mahout支持主要?个用例:(x)
13. HCatalog
Apache HCatalog是Hadoop建立数据的映表和存储管理服务,它包括:(x)
摘取了一部分Q全文请查看
http://blog.sina.com.cn/s/blog_633f4ab20100r9nm.html
背景
“q是最好的时代Q也是最坏的时代?#8221;
每个时代的h都在q么形容自己所处的时代。在一ơ次IT潮下面Q有得当下乏x聊,有h却能锐意q取Q找到突破。数据存储这个话题自从有了计机之后Q就一直是一个有或者无聊的主题。上世纪七十q代Q关pL据库理论的出玎ͼ造就了一批又一批传奇,q推动整个世界信息化C一个新的高度。而进入新千年以来Q随着SNS{应用的出现Q传l的SQL数据库已l越来越不适应量数据的处理了。于是,q几qNoSQL数据库的呼声也越来越高?/p>
在NoSQL数据库当中,呼声最高的是HBase和Cassandra两个。虽然严格意义上来说Q两者服务的目的有所不同Q侧重点也不相同,但是作ؓ(f)当前开源NoSQL数据库的g者,两者经常被用来做各U比较?/p>
d十月QFacebook推出了他的新的Messagepȝ。Facebook宣布他们采用HBase作ؓ(f)后台存储pȝ。这引v了一片喧哗声。因为Cassandra恰恰是Facebook开发,q且?008q开源。这让很多h惊呼Q是否是Cassandra已经被Facebook攑ּ了?HBase在这场NoSQL数据库的角力当中取得了决定性的胜利Q本文打主要从技术角度分析,HBase和Cassandra的异同,q要给ZQ何结论,只是׃n自己研究的一些结果?/p>
选手?/strong>
HBase
HBase是一个开源的分布式存储系l。他可以看作是Google的Bigtable的开源实现。如同Google的Bigtable使用Google File System一PHBase构徏于和Google File SystemcM的Hadoop HDFS之上?/p>
Cassandra
Cassandra可以看作是Amazon Dynamo的开源实现。和Dynamo不同之处在于QCassandral合了Google Bigtable的ColumnFamily的数据模型。可以简单地认ؓ(f)QCassandra是一个P2P的,高可靠性ƈh丰富的数据模型的分布式文件系l?/p>
分布式文件系l的指标
Ҏ(gu)UC Berkeley的教授Eric Brewer?000q提出猜? CAP定理Q一个分布式计算机系l,不可能同时满以下三个指标:(x)
Consistency 所有节点在同一时刻保持同一状态Availability 某个节点p|Q不?x)媄响系l的正常q行Partition tolerance pȝ可以因ؓ(f)|络故障{原因被分裂成小的子pȝQ而不影响pȝ的运?p style="margin: 0px; padding: 0px;">Brewer教授推测QQ何一个系l,同时只能满以上两个指标?/p>
?002q_(d)MIT的Seth Gilbert和Nancy Lynch发表正式论文了CAP定理?/p>
而HBase和Cassandra两者都属于分布式计机pȝ。但是其设计的侧重点则有所不同。HBasel承于Bigtable的设计,侧重于CA。而Cassandra则承于Dynamo的设计,侧重于AP?/p>
。。。。。。。。。。。。。。。。。。?p style="margin: 0px; padding: 0px;">Ҏ(gu)比?/strong>
׃HBase和Cassandra的数据模型比较接q,所以这里就不再比较两者之间数据模型的异同了。接下来主要比较双方在数据一致性、多拯复制的特性?/p>
HBase
HBase保证写入的一致性。当一份数据被要求复制N份的时候,只有N份数据都被真正复制到N台服务器上之后,客户端才?x)成功返回。如果在复制q程中出现失败,所有的复制都将p|。连接上M一台服务器的客L(fng)都无法看到被复制的数据。HBase提供行锁Q但是不提供多行锁和事务。HBaseZHDFSQ因此数据的多䆾复制功能和可靠性将由HDFS提供。HBase和MapReduce天然集成?/p>
Cassandra
写入的时候,有多U模式可以选择。当一份数据模式被要求复制N份的时候,可以立即q回Q可以成功复制到一个服务器之后q回Q可以等到全部复制到N份服务器之后q回Q还可以讑֮一个复制到quorum份服务器之后q回。Quorum后面?x)有具体解释。复制不?x)失败。最l所有节Ҏ(gu)据都被写入。而在未被完全写入的时间间隙,q接C同服务器的客L(fng)有可能读C同的数据。在集群里面Q所有的服务器都是等L(fng)。不存在M一个单Ҏ(gu)障。节点和节点之间通过Gossip协议互相通信。写入顺序按照timestamp排序Q不提供行锁。新版本的Cassandra已经集成了MapReduce了?/p>
相对于配|CassandraQ配|HBase是一个艰辛、复杂充满陷q工作。Facebook关于Z采取HBaseQ里面有一句,大意是,Facebook长期以来一直关注HBase的开发ƈ且有一只专门的l验丰富的HBasel护的team来负责HBase的安装和l护。可以想象,Facebook内部关于使用HBase和Cassandra有过Ȁ烈的斗争Q最lh数更多的HBase team占据了上风。对于大公司来说Q养一只相对庞大的cMDBA的team来维护HBase不算什么大的开销Q但是对于小公司Q这实在不是一个可以负担的L(fng)开销?/p>
另外HBase在高可靠性上有一个很大的~陷Q就是HBase依赖HDFS。HDFS是Google File System的复制品QNameNode是HDFS的单Ҏ(gu)障点。而到目前为止QHDFSq没有加入NameNode的自我恢复功能。不q我怿QFacebook在内部一定有恢复NameNode的手D,只是没有开源出来而已?/p>
相反QCassandra的P2P和去中心化设计,没有可能出现单点故障。从设计上来看,Cassandra比HBase更加可靠?/p>
关于数据一致性,实际上,Cassandra也可以以牺牲响应旉的代h获得和HBase一L(fng)一致性。而且Q通过对Quorum的合适的讄Q可以在响应旉和数据一致性得C个很好的折衷倹{?/strong>
Cassandra优缺?p style="margin: 0px; padding: 0px;">主要表现在:(x)配置单,不需要多模块协同操作。功能灵zL强Q数据一致性和性能之间Q可以根据应用不同而做不同的设|?nbsp;可靠性更强,没有单点故障?/p>
管如此QCassandra没有弱点吗Q当然不是,Cassandra有一个致命的q?/p>
q就是存储大文g。虽然说QCassandra的设计初衷就不是存储大文Ӟ但是Amazon的S3实际上就是基于Dynamo构徏的,L?x)让人想入非非地让Cassandrad储超大文件。而和Cassandra不同QHBaseZHDFSQHDFS的设计初衷就是存储超大规模文件ƈ且提供最大吞吐量和最可靠的可讉K性。因此,从这一Ҏ(gu)_(d)Cassandra׃背后不是一个类似HDFS的超大文件存储的文gpȝQ对于存储那U巨大的Q几百T甚至PQ的大文g目前是无能ؓ(f)力的。而且q由Client手工dԌq实际上是非怸明智和消耗Client CPU的工作的?/p>
因此Q如果我们要构徏一个类似Google的搜索引擎,最,HDFS是我们所必不可少的。虽然目前HDFS的NameNodeq是一个单Ҏ(gu)障点Q但是相应的Hack可以让NameNode变得更皮实。基于HDFS的HBase相应圎ͼ也更适合做搜索引擎的背后倒排索引数据库。事实上QLucene和HBase的结合,q比Lucenel合Cassandra的项目Lucandra要顺畅和高效的多。(Lucandra要求Cassandra使用OrderPreservingPartitioner,q将可能DKey的分布不均匀Q而无法做负蝲均衡Q生访问热Ҏ(gu)器)?/p>
所以我的结论是Q在q个需求多样化的年代,没有赢者通吃的事情。而且我也来不怿在工E界存在一x逸和一成不变的解决Ҏ(gu)?strong>当你仅仅是存储v量增长的消息数据Q存储v量增长的囄Q小视频的时候,你要求数据不能丢失,你要求h工维护尽可能,你要求能q速通过d机器扩充存储Q那么毫无疑问,Cassandra现在是占据上风的?/strong>
但是如果你希望构Z个超大规模的搜烦引擎Q生超大规模的倒排索引文gQ当然是逻辑上的文gQ真实文件实际上被切分存储于不同的节点上Q,那么目前HDFS+HBase是你的首选?/strong>
pq个看v来永q正的l论l尾吧,上帝的归上帝Q凯撒的归凯撒。大安有自q地盘Q野癑也会(x)有春天的Q?/p>
1. Ud讑֤战争
Ud讑֤多样化,Windows仅仅?span style="font-family: 'Times New Roman'; ">IT需要支持的多种环境之一,IT需要支持多样化环境?/p>
2. Ud应用?span style="font-family: 'Times New Roman'; ">HTML5
HTML5变得愈发重要,以满_元化的需求,以满_安全性非常看重的企业U应用?/p>
3. 个h?/strong>
个h云将把重心从客户端设备向跨设备交付基于云的服务{UR?/p>
4. 企业应用商店
有了企业应用商店Q?span style="font-family: 'Times New Roman'; ">IT的角色将从集权式规划者{变ؓ(f)市场理者,qؓ(f)用户提供监管和经U服务,甚至可能为应用程序专家提供生态系l支持?/p>
5. 物联|?/strong>
物联|是一个概念,描述了互联网如何作为物理实物扩展,如消费电(sh)子设备和实物资都连接到互联|上?/p>
6. 混合?span style="font-family: 'Times New Roman'; ">IT和云计算
打造私有云q搭建相应的理q_Q再利用该^台来理内外部服?/p>
7. 战略性大数据
企业应当大数据看成变革性的构架Q用多元化数据库代替Z同质划分的关pL据库?/p>
8. 可行性分?/strong>
大数据的核心在于Z业提供可行的创意。受Ud|络、社交网l、v量数据等因素的驱动,企业需要改变分析方式以应对新观?/p>
9. 内存计算
内存计算以云服务的Ş式提供给内部或外部用?span style="font-family: 'Times New Roman'; ">,C百万的事件能在几十毫U内被扫描以相x和规律?/p>
10. 整合生态系l?/strong>
市场正在l历从松散耦合的异构系l向更ؓ(f)整合的系l和生态系l{U,应用E序与硬件、Y件、Y件及(qing)服务打包形成整合生态系l?/p>
l合应用实践?qing)客户需求,可以有以下结论:(x)
1. 大数据时代已l到?/strong>
物联|发展及(qing)非结构化、半l构化数据的剧增推动了大数据应用需求发展。大数据高效应用是挖掘企业数据资源h(hun)值的势与发展方向?/p>
2. 云计依旧是主题Q云更加关注个?/strong>
云计是改变IT现状的核心技术之一Q云计算是大数据、应用商店交付的基础。个Z的发展将促云端服务更关注个体?/p>
3. Ud势Q企业应用商店将改变传统软g交付模式
Windows逐步不再是客L(fng)Lq_Q?span style="font-family: 'Times New Roman'; ">IT技术需要逐步转向支持多^台服务。在云^C构徏企业应用商店Q逐步促成IT的角色将从集权式规划者{变ؓ(f)应用市场理?/p>
4. 物联|将持箋改变工作?qing)生zL?/strong>
物联|将改变生活?qing)工作方式,物联|将是一U革新的力量。在物联|方向,IPV6是值得研究的一个技术?/p>
未来企业IT架构囑֦下:(x)
架构说明Q?/p>
1.应用被拆分Q客L(fng)变得极Q用户只需要关注极部分和自己有关的内容,打开pȝ后不再是上百个业务菜单?/p>
2.企业后端架构以分布式架构ؓ(f)主,大数据服务能力将成ؓ(f)企业核心竞争力的集中体现?/p>
3.非结构化数据处理?qing)分析相x术将?x)得到前所未有的重视?/p>
受个人水qx限,仅供参考,不当之处Q欢q拍砖!
http://blog.csdn.net/sdhustyh/article/details/8484780