apache-spark - Spark on Kubernetes 驱动程序 pod 清理

标签 apache-spark kubernetes

我在 Kubernetes 1.19 上运行 spark 3.1.1。作业完成后,执行程序 pod 将被清理,但驱动程序 pod 仍处于已完成状态。完成后如何清理驱动程序 Pane ?有什么要设置的配置选项吗?

NAME                                           READY   STATUS      RESTARTS   AGE
my-job-0e85ea790d5c9f8d-driver                 0/1     Completed   0          2d20h
my-job-8c1d4f79128ccb50-driver                 0/1     Completed   0          43h
my-job-c87bfb7912969cc5-driver                 0/1     Completed   0          43h

最佳答案

关于最初的问题“Spark on Kubernetes driver pod cleanup”,似乎没有办法在 spark-submit 时将 TTL 参数传递给 kubernetes,以避免永远不会删除处于已完成状态的驱动程序 pod。

来自 Spark 文档: https://spark.apache.org/docs/latest/running-on-kubernetes.html 当应用程序完成时,executor pod 终止并被清理,但驱动程序 pod 保留日志并在 Kubernetes API 中保持“已完成”状态,直到最终被垃圾收集或手动清理。 p>

目前还不清楚是谁在做“最终垃圾收集”。

关于apache-spark - Spark on Kubernetes 驱动程序 pod 清理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67311199/

相关文章:

java - Spark javaRDD 输出到数据库

apache-spark - yarn 调度程序页面上的内存,vcore和磁盘是什么?

mysql - 从sparklyr和/或pyspark连接到mysql

docker - 我应该使用无服务器、Kubernetes 还是 Docker Swarm?

kubernetes - 检查我的 Kafka 和 Zookeeper 功能和连接

windows - 为什么启动流式查询会导致 "ExitCodeException exitCode=-1073741515"?

apache-spark - Pyspark 2.0 - IndextoString 错误

java - Kubernetes AutoDevOps 上的 PKIX 路径构建失败

kubernetes - 通过 Helm 钩子(Hook)运行脚本

kubernetes - minikube 上的 RabbitMQ Cluster Kubernetes Operator