博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark on yarn任务提交缓慢解决
阅读量:5013 次
发布时间:2019-06-12

本文共 1250 字,大约阅读时间需要 4 分钟。

问题背景

在使用pyspark提交任务导yarn上的时候,每次提交任务,都要等待好长时间,但是在之前公司中,提交任务导yarn上很快的,所以就调查了一下在提交任务的时候,有一个WARN的日志:
WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
在网上查了一下,每一次我们运行的时候,如果没有指定 spark.yarn.archive or spark.yarn.jars,Spark将在安装路径下的Jar目录,将其所有的Jar包打包然后将其上传到分布式缓存官网的原话:To make Spark runtime jars accessible from YARN side, you can specify spark.yarn.archive or spark.yarn.jars. For details please refer to Spark Properties. If neither spark.yarn.archive nor spark.yarn.jars is specified, Spark will create a zip file with all jars under $SPARK_HOME/jars and upload it to the distributed cache.

调优方法

* 首先将Spark安装路径下的所有jar包上传到HDFS上* 在spark的conf目录下的spark-defaults.conf添加
spark.yarn.archive               hdfs://ycluster-3/data/hadoop/spark-jars/*jar

有个bug

我记得我当时按照这个步骤修改完,提交任务导yarn上之后,会报以下错误
ERROR spark.SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.    at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:85)

至于怎么修复的,我忘记了,等想起来,再回来补上

转载于:https://www.cnblogs.com/goldenSky/p/11203273.html

你可能感兴趣的文章
开发一个12306网站要多少钱?技术分析12306合格还是不合格
查看>>
Selenium 入门到精通系列:六
查看>>
HTTP与TCP的区别和联系
查看>>
android 实现2张图片层叠效果
查看>>
我个人所有的独立博客wordpress都被挂马
查看>>
html5——动画案例(时钟)
查看>>
调用Android系统“应用程序信息(Application Info)”界面
查看>>
ios中用drawRect方法绘图的时候设置颜色
查看>>
数据库中的外键和主键理解
查看>>
个人博客03
查看>>
Expression<Func<T,TResult>>和Func<T,TResult>
查看>>
文件缓存
查看>>
关于C语言中return的一些总结
查看>>
Codeforces Round #278 (Div. 2)
查看>>
51. N-Queens
查看>>
Linux 命令 - 文件搜索命令 locate
查看>>
[Grunt] grunt.template
查看>>
Ubuntu最小化桌面快捷键Super+D不生效解决
查看>>
Cookie&Session会话跟踪技术
查看>>
UNIX环境高级编程 第17章 高级进程间通信
查看>>