kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么？

我已经在 GCP 上使用 Kubernetes Engine 建立了一个 Kubernetes 集群，以使用 Dask 进行一些数据预处理和建模。我使用 Helm following these instructions 安装了 Dask .

现在，我看到有两个文件夹，work和 examples

我能够执行 example 中的笔记本内容文件夹确认一切都按预期工作。

我现在的问题如下

在集群上工作时建议遵循哪些工作流程？我应该在 work 下创建一个新笔记本吗？并开始制作我的数据预处理脚本的原型(prototype)？

如何确保在升级 Helm 部署时不会删除我的工作？您是否会在每次升级时手动将它们移动到存储桶中(这似乎很乏味)？或者您会创建一个简单的 vm 实例，在那里进行原型(prototype)制作，然后在完整数据集上运行时将所有内容移动到集群中？

我不熟悉在云中的分布式环境中处理数据，因此欢迎提出任何建议。

最佳答案

What are the suggested workflow to follow when working on a cluster?

有许多工作流程适用于不同的组。没有单一的祝福工作流程。

Should I just create a new notebook under work and begin prototyping my data preprocessing scripts?

当然，那会很好。

How can I ensure that my work doesn't get erased whenever I upgrade my Helm deployment?

您可以将数据保存到更永久的存储中，例如云存储或托管在其他地方的 git 存储库。

Would you just manually move them to a bucket every time you upgrade (which seems tedious)?

是的，那会起作用(是的，确实如此)

or would you create a simple vm instance, prototype there, then move everything to the cluster when running on the full dataset?

是的，这也可以。

总之

Helm 图表包括一个 Jupyter 笔记本服务器，以方便和轻松测试，但它不能替代成熟的长期持久生产力套件。为此，您可能会考虑像 JupyterHub 之类的项目(它处理您上面列出的问题)或当今市场上众多面向企业的变体之一。与其中任何一个一起使用 Dask 会很容易。

关于kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55032804/

kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么？

上一篇：azure - 如何创建自定义 Docker 镜像？

下一篇：kubernetes - 命名空间的Kubernetes max可用cpu/mem resourceQuota是多少？