google-cloud-platform - Dataproc 集群镜像升级

标签 google-cloud-platform google-cloud-dataproc

由于我们的业务需求,我们必须使用静态长时间运行的持久性 Dataproc 集群。有什么方法可以升级 Dataproc 镜像以利用最新的 OS/OSS 更新?

请帮我提供一些引用文档来执行此操作(最好是自动化)。

最佳答案

如今,Dataproc 不支持就地集群升级,这也是我们建议客户改用临时(每个作业/工作流)或短期集群(几周,而不是几年)的原因。

不幸的是,Oozie 不能很好地与云原生或混合架构配合使用。我建议将集群故障转移功能构建到您的自动化中,以便您可以经常删除/重新创建。也许作为集群启动的一部分,它可以发出一个锁定文件,以防止旧集群产生新作业?

这是可能有帮助的其他引用资料。

关于解耦计算和存储:

https://www.qubole.com/blog/advantage-decoupling/

https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips

长生命周期集群的选项:

https://cloud.google.com/blog/products/data-analytics/10-tips-for-building-long-running-clusters-using-cloud-dataproc

有关专门处理 Oozie 的一种方法,请参阅下面的第二个答案。

关于google-cloud-platform - Dataproc 集群镜像升级,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59151181/

相关文章:

docker - Kubernetes 集群中 Docker 镜像中的环境变量

python - 谷歌存储 python API - 上传一个 StringIO 对象

google-cloud-platform - GCP : You do not have sufficient permissions to SSH into this instance

google-cloud-platform - 错误 : permission denied on resource project when launching Dataproc cluster

oracle - 将数据从可操作的 Oracle RDBMS 移动到 GCP BigQuery 或 Cloud Storage 的建议

docker - 使用 Google AI Platform Notebook 实例,如何从我的本地计算机通过 ssh 连接到 jupyterlab 容器?

python-3.x - Google Cloud Functions Python 日志记录问题

hadoop - 使用 hadoop distcp 命令在 Dataproc 上等效的 s3-dist-cp groupBy

hadoop - 将数据从 BigQuery 表加载到 Dataproc 集群时出错

google-cloud-dataproc - 如何通过 Cloud Composer 为 Google Cloud Dataproc 设置 CPUS 配额?