apache-spark - Spark/k8s:如何在客户端模式下在现有kubernetes集群上安装Spark 2.4?

标签 apache-spark kubernetes pyspark jupyter jupyterhub

我想在我的Kubernetes集群上安装Apache Spark v2.4 ,但是该版本似乎没有稳定的 Helm 图。较旧/稳定的图表(对于v1.5.1)存在于

https://github.com/helm/charts/tree/master/stable/spark

如何创建/查找v2.4图表?

然后:需要v2.4的原因是启用客户端模式,因为我希望能够从我的笔记本电脑的开发环境向集群提交(PySpark / Jupyter笔记本)作业。要启用客户端模式(包括公开服务),还需要执行哪些其他步骤?

到目前为止,我发现但仍未成功的最接近尝试(但对于Spark v2.0.0)是

https://github.com/Uninett/kubernetes-apps/tree/master/spark

https://github.com/phatak-dev/kubernetes-spark(也已经两年了)上,没有关于jupyter部署的信息。

Pangeo专用:https://discourse.jupyter.org/t/spark-integration-documentation/243

SO线程:https://github.com/jupyterhub/zero-to-jupyterhub-k8s/issues/1030

我已经搜索了有关此方面的最新资源,但没有发现所有东西都可以放在一个地方。如果人们何时能够向我指出这些问题,我将使用其他相关链接来更新此问题。希望有可能将答案拼凑在一起。

与以往一样,在此先感谢您。

更新:

v2.2的https://github.com/SnappyDataInc/spark-on-k8s非常易于部署-看起来很有希望...

最佳答案

请参阅https://hub.helm.sh/charts/microsoft/spark,这是基于https://github.com/helm/charts/tree/master/stable/spark并在hadoop 3.1中使用spark 2.4.6。您可以在https://github.com/dbanda/charts上查看此聊天的来源。 Livy服务使通过REST API提交Spark作业变得容易。您也可以使用Zeppelin提交作业。我们将此图表作为在不使用spark-submit k8s模式的情况下在K8s上运行spark的替代方法。希望对您有所帮助。

关于apache-spark - Spark/k8s:如何在客户端模式下在现有kubernetes集群上安装Spark 2.4?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55098343/

相关文章:

json - 使用 Apache Spark 读取 JSON - `corrupt_record`

docker - 为 gcloud 构建提交指定 Dockerfile

apache-spark - Pyspark:如何从 Spark 数据框中过滤 10000 个随机元素

apache-spark - 在 Spark 中显示 <IPython.core.display.HTML object>

mysql - SparkSQL 在 where(filter) 子句中的时间戳之间(V.S. 在 MySQL 中)

scala - 如何在 spark scala 中使用带有 2 列的 array_contains?

scala - Spark中ALS的实现

docker - Kubernetes和Docker:如何让两个服务正确通信

docker - 在Kubernetes中部署Harbor

pyspark - GroupBy 和 concat 数组列 pyspark