我已经在 GCP 上使用 Kubernetes Engine 建立了一个 Kubernetes 集群,以使用 Dask 进行一些数据预处理和建模。我使用 Helm following these instructions 安装了 Dask .
现在,我看到有两个文件夹,work
和 examples
我能够执行 example
中的笔记本内容文件夹确认一切都按预期工作。
我现在的问题如下
work
下创建一个新笔记本吗?并开始制作我的数据预处理脚本的原型(prototype)? 我不熟悉在云中的分布式环境中处理数据,因此欢迎提出任何建议。
最佳答案
What are the suggested workflow to follow when working on a cluster?
有许多工作流程适用于不同的组。没有单一的祝福工作流程。
Should I just create a new notebook under work and begin prototyping my data preprocessing scripts?
当然,那会很好。
How can I ensure that my work doesn't get erased whenever I upgrade my Helm deployment?
您可以将数据保存到更永久的存储中,例如云存储或托管在其他地方的 git 存储库。
Would you just manually move them to a bucket every time you upgrade (which seems tedious)?
是的,那会起作用(是的,确实如此)
or would you create a simple vm instance, prototype there, then move everything to the cluster when running on the full dataset?
是的,这也可以。
总之
Helm 图表包括一个 Jupyter 笔记本服务器,以方便和轻松测试,但它不能替代成熟的长期持久生产力套件。为此,您可能会考虑像 JupyterHub 之类的项目(它处理您上面列出的问题)或当今市场上众多面向企业的变体之一。与其中任何一个一起使用 Dask 会很容易。
关于kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55032804/