apache-spark - 每次在yarn中执行批处理作业时都会创建Spark上下文

标签 apache-spark hadoop bigdata hadoop-yarn

我想知道,有什么方法可以在 YARN 集群中创建一次 Spark 上下文,然后传入的作业将重新使用该上下文。在我的集群中,上下文创建需要 20 秒甚至更多。我使用 pyspark 编写脚本,使用 livy 提交作业。

最佳答案

不,你不能只在 Yarn 中运行一个常设的 SparkContext。也许另一个想法是在客户端模式下运行,客户端拥有自己的 SparkContext(这是 Apache Zeppelin 和 Spark-shell 等工具使用的方法)。

关于apache-spark - 每次在yarn中执行批处理作业时都会创建Spark上下文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68559885/

相关文章:

scala - Spark -hbase-连接器 : ClusterId read in ZooKeeper is null

json - 无法将数据集从SPARK传输到HBase表

hadoop - 用于获取正在运行的应用程序使用的容器和 vcore 数量的 YARN shell 命令

hadoop - 记录大数据以使用 Hadoop 组织和存储它并使用 Hive 查询它的正确方法是什么?

c - 在 C 中处理大数据集

python - 在 python 中将 foreach 与 Spark RDD 结合使用

java - 可以启动 apache Spark 节点的嵌入式实例吗?

Hadoop 和 HBase 集成

security - Elasticsearch、Apache Metron 和 Apache Spot 在网络安全方面有何技术差异?

swift - 减少在 iOS 图表上绘制大型数据集时的滞后