在线观看av一区,高清亚洲高清,精品动漫一区二区三区在线观看

paulwong — Thu, 18 Jun 2015 05:20:00 GMT

1.Spark生态圈

如下图所�C�ZؓSpark的整个生态圈�Q�最底层��源管理器�Q�采用Mesos、Yarn�{�资源管理集��或者Spark 自带的Standalone模式�Q�底层存储�ؓ文�g�pȝ��或者其他格式的存储�pȝ��如HBase。Spark作�ؓ计算框架�Q��ؓ上层多种应用提供服务�?Graphx和MLBase提供数据挖掘服务�Q�如图计��和挖掘�q�代计算�{�。Shark提供SQL查询服务�Q�兼容Hive语法�Q�性能比Hive�?-50 倍，BlinkDB是一个通过权衡数据�_��度来提升查询晌应旉��的交互SQL查询引擎�Q�二者都可作��Z��互式查询使用。Spark Streaming��流式计��分解成一�p�d��短小的批处理计算�Q��ƈ且提供高可靠和吞吐量服务�?/p>

2.Spark基本原理

Spark�q�行框架如下图所�C�，首先有集��资源管理服务（Cluster Manager�Q�和�q�行作业��d��的结点（Worker Node�Q�，然后��是每个应用的�Q务控制结点Driver和每个机器节点上有具体�Q务的执行�q�程�Q�Executor�Q��?/strong>

与MR计算框架相比�Q�Executor有二个优点：一个是多线�E�来执行具体的�Q务，而不是像MR那样采用�q�程模型�Q?减少了�Q务的启动开�E�。二个是Executor上会有一个BlockManager存储模块�Q�类��g��KV�pȝ��Q�内存和��盘共同作�ؓ存储讑֤��Q�，当需要�P�?多轮�Ӟ��可以��中间过�E�的数据先放到这个存储系�l�上�Q�下�ơ需要时直接读该存储上数据，而不需要读写到hdfs�{�相关的文�g�pȝ��里，或者在交互式查询场�?下，事先��表Cache到该存储�pȝ��上，提高��d��IO性能。另外Spark在做Shuffle�Ӟ��在Groupby�Q�Join�{�场景下��L��了不必要�?Sort操作�Q�相比于MapReduce只有Map和Reduce二种模式�Q�Spark�q�提供了更加丰富全面的运��操作如 filter,groupby,join�{��?/p>

Notes: 在集��?cluster)方式�? Cluster Manager�q�行在一个jvm�q�程之中�Q�而worker�q�行在另一个jvm�q�程中。在local cluster中，�q�些jvm�q�程都在同一台机器中�Q�如果是真正的standalone或Mesos及Yarn集群�Q�worker与master或分布于不同的主��Z��上�?/p>

JOB的生成和�q�行

job生成的简单流�E�如�?/p>

1.首先应用�E�序创徏SparkContext的实例，如实例�ؓsc

2.利用SparkContext的实例来创徏生成RDD

3.�l�过一�q�串的transformation操作�Q�原始的RDD转换成�ؓ其它�c�d��的RDD

4.当action作用于�{换之后RDD�Ӟ��会调用SparkContext的runJob�Ҏ��

5.sc.runJob的调用是后面一�q�串反应的�v点，关键性的跃变��发生在此处

调用路径大致如下

1.sc.runJob->dagScheduler.runJob->submitJob

2.DAGScheduler::submitJob会创建JobSummitted的event发送给内嵌�c�eventProcessActor

3.eventProcessActor在接收到JobSubmmitted之后调用processEvent处理函数

4.job到stage的�{换，生成finalStage�q�提交运行，关键是调用submitStage

5.在submitStage中会计算stage之间的依赖关�p�，依赖关系分�ؓ宽依赖和�H�依赖两�U?/p>

6.如果计算中发现当前的stage没有��M��依赖或者所有的依赖都已�l�准备完毕，则提交task

7.提交task是调用函数submitMissingTasks来完�?/p>

8.task真正�q�行在哪个worker上面是由TaskScheduler来管理，也就是上面的submitMissingTasks会调用TaskScheduler::submitTasks

9.TaskSchedulerImpl中会�Ҏ��Spark的当前运行模式来创徏相应的backend,如果是在单机�q�行则创建LocalBackend

10.LocalBackend收到TaskSchedulerImpl传递进来的ReceiveOffers事�g

11.receiveOffers->executor.launchTask->TaskRunner.run

Spark采用了Scala来编写，在函数表达上Scala有天然的优势�Q�因此在表达复杂的机器学习算法能力比其他语言更强且简单易懂。提供各�U�操作函数来建立起RDD的DAG计算模型。把每一个操作都看成构徏一个RDD来对待，而RDD则表�C�的是分布在多台机器上的数据集合�Q��ƈ且可以带上各�U�操作函数。如下图所�C�：

首先从hdfs文�g里读取文本内�Ҏ��建成一个RDD�Q�然后��用filter�Q�）操作来对上次的RDD�q�行�q��o�Q�再�?用map�Q�）操作取得记录的第一个字�D�，最后将其cache在内存上�Q�后面就可以对之前cache�q�的数据做其他的操作。整个过�E�都��Ş成一个DAG计算图，每个操作步骤都有定w��机制�Q�同时还可以��需要多�ơ��用的数据cache��h��Q�供后箋�q�代使用.

3.Shark的工作原�?/strong>

Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎�Q�由于底层的计算采用了Spark�Q��?能比MapReduce的Hive普遍�?倍以上，如果是纯内存计算的SQL�Q�要�?倍以上，当数据全部load在内存的话，��快10倍以上，因此 Shark可以作�ؓ交互式查询应用服务来使用�?br />
上图��是整个Shark的框架图�Q�与其他的SQL引擎相比�Q�除了基于Spark的特性外�Q�Shark是完全兼容Hive的语法，表结构以及UDF函数�{�，已有的HiveSql可以直接�q�行�q�移至Shark上�?/p>

与Hive相比�Q�Shark的特性如下：

1.以在�U�服务的方式执行��d��Q�避免�Q务进�E�的启动和销毁开�E�，通常MapReduce里的每个��d��都是启动和关闭进�E�的方式来运行的�Q�而在Shark中，Server�q�行后，所有的工作节点也随之启动，随后以常��L��务的形式不断的接受Server发来的�Q务�?/p>

2.Groupby和Join操作不需要Sort工作�Q�当数据量内存能装下�Ӟ��一�Ҏ��收数据一�Ҏ��行计��操作。在Hive中，不管��M��操作在Map到Reduce的过�E�都需要对Key�q�行Sort操作�?/p>

3.对于性能要求更高的表�Q�提供分布式Cache�pȝ��表数据事先Cache臛_��存中�Q�后�l�的查询��直接访问内存数据，不再需要磁盘开�E��?/p>

4.�q�有很多Spark的特性，如可以采用Torrent来广播变量和��数据，��执行计划直接传送给Task�Q�DAG�q�程中的中间数据不需要落地到Hdfs文�g�pȝ��?/p>

paulwong 2015-06-18 13:20 发表评论

paulwong — Thu, 18 Jun 2015 05:17:00 GMT

Spark的整体流�E��ؓ�Q�Client 提交应用�Q�Master扑ֈ�一个Worker启动Driver�Q�Driver向Master或者资源管理器甌��资源�Q�之后将应用转化为RDD Graph�Q�再由DAGScheduler��RDD Graph转化为Stage的有向无环图提交�l�TaskScheduler�Q�由TaskScheduler提交��d��l�Executor执行。在��d��执行的过�E�中�Q�其他组件协同工作，��保整个应用��利执行�?/p>
Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集��中的含有Master�q�程的节点（ClusterManager�Q�，Slave是集��中含有Worker�q�程的节炏V��Master作�ؓ整个集群的控制器�Q�负责整个集��的正常�q�行�Q�Worker相当于是计算节点�Q�接收主节点命��o与进行状态汇报；Executor负责��d��的执行；Client作�ؓ用户的客��L��负责提交应用�Q�Driver负责控制一个应用的执行�Q�如图下图：

Spark 框架�?/p>

Spark集群部��v后，需要在主节点和从节点分别启动Master�q�程和Worker�q�程�Q�对整个集群�q�行控制。在一个Spark应用的执行过�E�中�Q�Driver和Worker是两个重要角艌Ӏ�Driver �E�序是应用逻辑执行的�v点，负责作业的调度，即Task��d��的分发，而多个Worker用来��理计算节点和创建Executor�q�行处理��d��。在执行阶段�Q�Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机器�Q�同时Executor对相应数据分区的��d��q�行处理�?/p>

Spark的架构中的基本组件介�l�：
ClusterManager�Q�在Standalone模式中即为Master�Q�主节点�Q�，控制整个集群�Q�监控Worker。在YARN模式中�ؓ资源��理器�?/p>
Worker�Q�从节点�Q�负责控制计��节点，启动Executor或Driver。在YARN模式中�ؓNodeManager�Q�负责计��节点的控制�?/p>
Driver�Q�运行Application的main()函数�q�创建SparkContext�?/p>
Executor�Q�执行器�Q�在worker node上执行�Q务的�l��g、用于启动线�E�池�q�行��d��。每个Application拥有独立的一�l�Executors�?/p>
SparkContext�Q�整个应用的上下文，控制应用的生命周期�?/p>
RDD�Q�Spark的基本计��单元，一�l�RDD可�Ş成执行的有向无环图RDD Graph�?/p>
DAG Scheduler�Q�实现将Spark作业分解成一到多个Stage�Q�每个Stage�Ҏ��RDD的Partition个数军_��Task的个敎ͼ�然后生成相应的Task set攑ֈ�TaskScheduler中�?/p>
TaskScheduler�Q�将��d��Q�Task�Q�分发给Executor执行�?/p>
Stage�Q�一个Spark作业一般包含一到多个Stage�?/p>
Task�Q�一个Stage包含一到多个Task�Q�通过多个Task实现�q�行�q�行的功能�?/p>
Transformations�Q��{�?Transformations) (如：map, filter, groupBy, join�{?�Q�Transformations操作是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Transformations操作时只会记录需要这��L��操作�Q��ƈ不会��L��行，需要等到有Actions操作的时候才会真正启动计��过�E�进行计��?/p>
Actions�Q�操�?Actions) (如：count, collect, save�{?�Q�Actions操作会返回结果或把RDD数据写到存储�pȝ��中。Actions是触发Spark启动计算的动因�?/p>
SparkEnv�Q�线�E��别的上下文，存储�q�行时的重要�l��g的引用�?/p>
SparkEnv内创建�ƈ包含如下一些重要组件的引用�?/em>
MapOutPutTracker�Q�负责Shuffle元信息的存储�?/em>
BroadcastManager�Q�负责广播变量的控制与元信息的存储�?/em>
BlockManager�Q�负责存储管理、创建和查找块�?/em>
MetricsSystem�Q�监控运行时性能指标信息�?/em>
SparkConf�Q�负责存储配�|�信息�?/em>

Spark�q�行逻辑�?/p>

在Spark应用中，整个执行��程在逻辑上会形成有向无环图（DAG�Q�。Action��子触发之后�Q�将所有篏�U�的��子形成一个有向无环图�Q�然后由调度器调度该图上的�Q务进行运��。Spark的调度方式与MapReduce有所不同。Spark�Ҏ��RDD之间不同的依赖关�p�d��分�Ş成不同的阶段�Q�Stage�Q�，一个阶�D�包含一�p�d��函数执行��水�Uѝ��图中的A、B、C、D、E、F分别代表不同的RDD�Q�RDD内的�Ҏ��代表分区。数据从HDFS输入Spark�Q��Ş成RDD A和RDD C�Q�RDD C上执行map操作�Q��{换�ؓRDD D�Q?RDD B�?RDD E执行join操作�Q��{换�ؓF�Q�而在B和E�q�接转化为F的过�E�中又会执行Shuffle�Q�最后RDD F 通过函数saveAsSequenceFile输出�q�保存到HDFS�?Hbase�?/p>

paulwong 2015-06-18 13:17 发表评论