apache-spark - Kubernetes 上的 Spark

标签 apache-spark kubernetes pyspark

我在 kubernetes 中配置了如下 Spark。我按照此链接进行设置 -
https://testdriven.io/blog/deploying-spark-on-kubernetes/
enter image description here
在此配置中是否可以在集群模式下运行作业?还是只能用于本地开发?

最佳答案

是的你可以。并非所有功能都存在,因为它是实验性的,可以在此处查看更多详细信息以获得完整的配置和支持:Running Spark on Kubernetes
cluster mode

To launch Spark Pi in cluster mode:

$ ./bin/spark-submit \
    --master k8s://https://<k8s-apiserver-host>:<k8s-apiserver-port> \
    --deploy-mode cluster \
    --name spark-pi \
    --class org.apache.spark.examples.SparkPi \
    --conf spark.executor.instances=5 \
    --conf spark.kubernetes.container.image=<spark-image> \
    local:///path/to/examples.jar
添加有关在提交时如何使用和监控作业/应用程序的详细信息,并以以下开头:A Deeper Look At Spark-Submit您可以找到图表以及实际工作方式。也值得使用自定义图像检查此信息,但流程类似 kubernetes-spark-job

关于apache-spark - Kubernetes 上的 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63146843/

相关文章:

kubernetes - 使用命令行创建持久卷(不使用任何文件)

dataframe - 如何使用来自另一个数据帧的随机值更新 PySpark 中的数据帧?

pyspark - 如何在 palantir foundry 中使用 transform_df 写回数据帧?

scala - spark-submit with scala package++ operator 返回 java.lang.NoSuchMethodError : scala. Predef$.refArrayOps

apache-spark - 从 Pyspark 中的数据帧插入或更新增量表

python - Spark/Python,reduceByKey() 然后找到前 10 个最常见的单词和频率

kubernetes - 在kubernetes中如何使用dns名称访问服务?

AWS 中的 Kubernetes PersistentVolumeClaim 问题

apache-spark - SQLException上的sqlContext HiveDriver错误:不支持的方法

python - 每当我开始时,Pyspark都会给这些