国产区精品区,亚洲国产精品人久久电影,亚洲国产综合视频在线观看

Spark History Server配置使用

SIMONE — Thu, 26 May 2016 06:12:00 GMT

http://www.cnblogs.com/luogankun/p/3981645.html

Spark history Server产生背景

以standalone�q�行模式��Z��Q�在�q�行Spark Application的时候，Spark会提供一个WEBUI列出应用�E�序的运行时信息�Q�但该WEBUI随着Application的完�?成功/�?�?而关闭，也就是说�Q�Spark Application�q�行�?成功/��p�|)后，��无法查看Application的历史记录；

Spark history Server��是��Z��应对�q�种情况而��生的�Q�通过配置可以在Application执行的过�E�中记录下了日志事�g信息�Q�那么在Application执行 �l�束后，WEBUI��p��重新渲染生成UI界面展现��Application在执行过�E�中的运行时信息�Q?/p>

Spark�q�行在yarn或者mesos之上�Q�通过spark的history server仍然可以重构��Z��个已�l�完成的Application的运行时参数信息�Q�假如Application�q�行的事件日志信息已�l�记录下来）�Q?/p>

配置&使用Spark History Server

以默认配�|�的方式启动spark history server�Q?/p>

cd $SPARK_HOME/sbin start-history-server.sh

报错�Q?/p>

starting org.apache.spark.deploy.history.HistoryServer, logging to /home/spark/software/source/compile/deploy_spark/sbin/../logs/spark-spark-org.apache.spark.deploy.history.HistoryServer-1-hadoop000.out failed to launch org.apache.spark.deploy.history.HistoryServer:         at org.apache.spark.deploy.history.FsHistoryProvider.(FsHistoryProvider.scala:44)         ... 6 more

需要在启动时指定目录：

start-history-server.sh hdfs://hadoop000:8020/directory

hdfs://hadoop000:8020/directory可以配置在配�|�文件中�Q�那么在启动history-server时就不需要指定，后箋介绍怎么配置�Q?/p>

注：该目录需要事先在hdfs上创建好�Q�否则history-server启动报错�?/strong>

启动完成之后可以通过WEBUI讉K��Q�默认端口是18080�Q�http://hadoop000:18080

默认界面列表信息是空的，下面截图是我跑了几次spark-sql��试后出现的�?/p>

history server相关的配�|�参数描�q?/strong>

1�Q?spark.history.updateInterval
　　默认��|��10
　　以秒为单位，更新日志相关信息的时间间�?/p>
2�Q�spark.history.retainedApplications
　　默认��|��50
　　在内存中保存Application历史记录的个敎ͼ�如果��过�q�个��|��旧的应用�E�序信息��被删除�Q�当再次讉K��已被删除的应用信息时需要重新构建页面�?/p>
3�Q?span style="color: #ff0000;">spark.history.ui.port
　　默认��|��18080
　　HistoryServer的web端口

4�Q�spark.history.kerberos.enabled
　　默认��|��false
　　是否使用kerberos方式��d��讉K��HistoryServer�Q�对于持久层位于安全集群的HDFS上是有用的，如果讄��为true�Q�就要配�|�下面的两个属�?/p>
5�Q�spark.history.kerberos.principal
　　默认��|��用于HistoryServer的kerberos��M��名称

6�Q�spark.history.kerberos.keytab
　　用于HistoryServer的kerberos keytab文�g位置

7�Q�spark.history.ui.acls.enable
　　默认��|��false
　　授权用户查看应用�E�序信息的时候是否检查acl。如果启用，只有应用�E�序所有者和spark.ui.view.acls指定的用户可以查看应用程序信�?否则�Q�不做�Q何检�?/p>
8�Q?span style="color: #ff0000;">spark.eventLog.enabled
　　默认��|��false
　　是否记录Spark事�g�Q�用于应用程序在完成后重构webUI

9�Q?span style="color: #ff0000;">spark.eventLog.dir
　　默认��|��file:///tmp/spark-events
　　保存日志相关信息的�\径，可以是hdfs://开头的HDFS路径�Q�也可以是file://开头的本地路径�Q�都需要提前创�?/p>
10�Q?span style="color: #ff0000;">spark.eventLog.compress
　　默认��|��false
　　是否压羃记录Spark事�g�Q�前提spark.eventLog.enabled为true�Q�默认��用的是snappy

以spark.history开头的需要配�|�在spark-env.sh中的SPARK_HISTORY_OPTS�Q�以spark.eventLog开头的配置在spark-defaults.conf

我在��试�q�程中的配置如下�Q?/p>
spark-defaults.conf

spark.eventLog.enabled true spark.eventLog.dir hdfs://hadoop000:8020/directory spark.eventLog.compress true

spark-env.sh

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=7777 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://had oop000:8020/directory"

参数描述�Q?/p>
spark.history.ui.port=7777 调整WEBUI讉K��的端口号�?777

spark.history.fs.logDirectory=hdfs://hadoop000:8020/directory 配置了该属性后�Q�在start-history-server.sh时就无需再显�C�的指定路径

spark.history.retainedApplications=3 指定保存Application历史记录的个敎ͼ�如果��过�q�个��|��旧的应用�E�序信息��被删除

调整参数后启动start-history-server.sh

start-history-server.sh

讉K��WEBUI�Q?http://hadoop000:7777

在��用spark history server的过�E�中产生的几个疑问：

疑问1�Q�spark.history.fs.logDirectory和spark.eventLog.dir指定目录有啥区别�Q?/strong>

�l�测试后发现�Q?/p>
spark.eventLog.dir�Q�Application在运行过�E�中所有的信息均记录在该属性指定的路径下；

spark.history.fs.logDirectory�Q�Spark History Server��面只展�C��指定路径下的信息�Q?/p>
比如�Q�spark.eventLog.dir刚开始时指定的是hdfs://hadoop000:8020/directory�Q�而后修改成hdfs://hadoop000:8020/directory2

那么spark.history.fs.logDirectory如果指定的是hdfs://hadoop000:8020/directory�Q�就只能昄��目录下的所有Application�q�行的日志信息；反之亦然�?/p>

疑问2�Q�spark.history.retainedApplications=3 貌似没生效？�Q�？�Q�？�Q?/strong>

The History Server will list all applications. It will just retain a max number of them in memory. That option does not control how many applications are show, it controls how much memory the HS will need.

注意�Q�该参数�q�不是也��面中显�C�的application的记录数�Q�而是存放在内存中的个敎ͼ�内存中的信息在访问页面时直接��d��渲染既可�Q?/p>
比如说该参数配置�?0个，那么内存中就最多只能存�?0个applicaiton的日志信息，当第11个加入时�Q�第一个就会被�t�除�Q�当再次讉K��W?个application的页面信息时��?span style="font-size: 14px; line-height: 1.5;">需要重新读取指定�\径上的日志信息来渲染展示��面�?nbsp;

详见官方文��Q�http://spark.apache.org/docs/latest/monitoring.html

SIMONE 2016-05-26 14:12 发表评论

Spark On Yarn中spark.yarn.jar属性的使用

SIMONE — Thu, 26 May 2016 06:11:00 GMT

http://www.cnblogs.com/luogankun/p/4191796.html

今天在测试spark-sql�q�行在yarn上的�q�程中，无意间从日志中发��C��一个问题：

spark-sql --master yarn

14/12/29 15:23:17 INFO Client: Requesting a new application from cluster with 1 NodeManagers 14/12/29 15:23:17 INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (8192 MB per container) 14/12/29 15:23:17 INFO Client: Will allocate AM container, with 896 MB memory including 384 MB overhead 14/12/29 15:23:17 INFO Client: Setting up container launch context for our AM 14/12/29 15:23:17 INFO Client: Preparing resources for our AM container 14/12/29 15:23:17 INFO Client: Uploading resource file:/home/spark/software/source/compile/deploy_spark/assembly/target/scala-2.10/spark-assembly-1.3.0-SNAPSHOT-hadoop2.3.0-cdh5.0.0.jar -> hdfs://hadoop000:8020/user/spark/.sparkStaging/application_1416381870014_0093/spark-assembly-1.3.0-SNAPSHOT-hadoop2.3.0-cdh5.0.0.jar 14/12/29 15:23:18 INFO Client: Setting up the launch environment for our AM container

再开启一个spark-sql命��o行，从日志中再次发现�Q?/p>

14/12/29 15:24:03 INFO Client: Requesting a new application from cluster with 1 NodeManagers 14/12/29 15:24:03 INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (8192 MB per container) 14/12/29 15:24:03 INFO Client: Will allocate AM container, with 896 MB memory including 384 MB overhead 14/12/29 15:24:03 INFO Client: Setting up container launch context for our AM 14/12/29 15:24:03 INFO Client: Preparing resources for our AM container 14/12/29 15:24:03 INFO Client: Uploading resource file:/home/spark/software/source/compile/deploy_spark/assembly/target/scala-2.10/spark-assembly-1.3.0-SNAPSHOT-hadoop2.3.0-cdh5.0.0.jar -> hdfs://hadoop000:8020/user/spark/.sparkStaging/application_1416381870014_0094/spark-assembly-1.3.0-SNAPSHOT-hadoop2.3.0-cdh5.0.0.jar 14/12/29 15:24:05 INFO Client: Setting up the launch environment for our AM container

然后查看HDFS上的文�g�Q?/p>

hadoop fs -ls hdfs://hadoop000:8020/user/spark/.sparkStaging/

drwx------ - spark supergroup 0 2014-12-29 15:23 hdfs://hadoop000:8020/user/spark/.sparkStaging/application_1416381870014_0093 drwx------ - spark supergroup 0 2014-12-29 15:24 hdfs://hadoop000:8020/user/spark/.sparkStaging/application_1416381870014_0094

每个Application都会上传一个spark-assembly-x.x.x-SNAPSHOT-hadoopx.x.x-cdhx.x.x.jar的jar包，影响HDFS的性能以及占用HDFS的空间�?/p>

在Spark文��(http://spark.apache.org/docs/latest/running-on-yarn.html)中发�?span style="color: #ff0000;">spark.yarn.jar属性，��spark-assembly-xxxxx.jar存放在hdfs://hadoop000:8020/spark_lib/�?/p>
在spark-defaults.conf��d��属性配�|�：

spark.yarn.jar hdfs://hadoop000:8020/spark_lib/spark-assembly-1.3.0-SNAPSHOT-hadoop2.3.0-cdh5.0.0.jar

再次启动spark-sql --master yarn观察日志�Q?/p>

14/12/29 15:39:02 INFO Client: Requesting a new application from cluster with 1 NodeManagers 14/12/29 15:39:02 INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (8192 MB per container) 14/12/29 15:39:02 INFO Client: Will allocate AM container, with 896 MB memory including 384 MB overhead 14/12/29 15:39:02 INFO Client: Setting up container launch context for our AM 14/12/29 15:39:02 INFO Client: Preparing resources for our AM container 14/12/29 15:39:02 INFO Client: Source and destination file systems are the same. Not copying hdfs://hadoop000:8020/spark_lib/spark-assembly-1.3.0-SNAPSHOT-hadoop2.3.0-cdh5.0.0.jar 14/12/29 15:39:02 INFO Client: Setting up the launch environment for our AM container

观察HDFS上文�?/p>

hadoop fs -ls hdfs://hadoop000:8020/user/spark/.sparkStaging/application_1416381870014_0097

该Application对应的目录下没有spark-assembly-xxxxx.jar了，从而节省assembly包上传的�q�程以及HDFS�I�间占用�?/p>

我在��试�q�程中遇��C��c�M��如下的错误：

Application application_xxxxxxxxx_yyyy failed 2 times due to AM Container for application_xxxxxxxxx_yyyy

exited with exitCode: -1000 due to: java.io.FileNotFoundException: File /tmp/hadoop-spark/nm-local-dir/filecache does not exist

�?tmp/hadoop-spark/nm-local-dir路径下创建filecache文�g夹即可解��x��错问题�?/p>

SIMONE 2016-05-26 14:11 发表评论