我想知道,有什么方法可以在 YARN 集群中创建一次 Spark 上下文,然后传入的作业将重新使用该上下文。在我的集群中,上下文创建需要 20 秒甚至更多。我使用 pyspark 编写脚本,使用 livy 提交作业。
最佳答案
不,你不能只在 Yarn 中运行一个常设的 SparkContext。也许另一个想法是在客户端模式下运行,客户端拥有自己的 SparkContext(这是 Apache Zeppelin 和 Spark-shell 等工具使用的方法)。
关于apache-spark - 每次在yarn中执行批处理作业时都会创建Spark上下文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68559885/