google-cloud-platform - 如何构建 Google Cloud dataproc 边缘节点?

标签 google-cloud-platform google-compute-engine google-cloud-dataproc

我们正在从本地环境迁移到 Google Cloud Dataproc 来处理 Spark 作业。我可以构建集群并通过 ssh 连接到主节点以执行作业。我不清楚如何构建允许用户登录并提交作业的边缘节点。它会是另一个 gce 虚拟机吗?有什么想法或最佳实践吗?

最佳答案

新的 VM 实例是从其他架构映射 EdgeNode 角色的不错选择:

  • 您可以从主节点执行您的作业,您可以通过 SSH 访问该主节点。

  • 您需要在简单性 (SHH) 或安全性 (EdgeNode) 之间找到平衡。

  • 请注意,IAM 可以帮助允许个人用户通过分配 Dataproc Editor role 来提交作业。 .

不要忘记 Dataproc 提供的创建临时节点的功能。这意味着您创建一个集群、执行作业并删除集群。

使用临时集群可以避免不必要的成本。甚至,您为其创建的脚本可以从任何安装了 Google Cloud SDK 的计算机执行,例如OnPrem 服务器或您的 PC。

关于google-cloud-platform - 如何构建 Google Cloud dataproc 边缘节点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56477193/

相关文章:

python - 对资源要求高的进程是否分成多个进程?

google-app-engine - 谷歌云数据存储与谷歌应用引擎

kubernetes 为许多副本提供公共(public) ip

google-cloud-dataproc - Cloud Storage 上的 Dataproc : Hot data on HDFS, 冷数据?

google-cloud-platform - 错误 : permission denied on resource project when launching Dataproc cluster

apache-spark - PySpark Yarn 应用程序在 groupBy 上失败

python - 在 cloudml 上使用部署的模型时,在 base64 中发现无效字符

java - 使用 spring boot 从 Secret Manager GCP 获取值

kubernetes - GKE 节点池自定义机器类型 CLI

docker - 您可以通过 Terraform 在 GCP 中运行 Docker 容器吗?