apache-spark - 每次在yarn中执行批处理作业时都会创建Spark上下文

我想知道，有什么方法可以在 YARN 集群中创建一次 Spark 上下文，然后传入的作业将重新使用该上下文。在我的集群中，上下文创建需要 20 秒甚至更多。我使用 pyspark 编写脚本，使用 livy 提交作业。

最佳答案

不，你不能只在 Yarn 中运行一个常设的 SparkContext。也许另一个想法是在客户端模式下运行，客户端拥有自己的 SparkContext(这是 Apache Zeppelin 和 Spark-shell 等工具使用的方法)。

关于apache-spark - 每次在yarn中执行批处理作业时都会创建Spark上下文，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68559885/