kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么?

标签 kubernetes dask

我已经在 GCP 上使用 Kubernetes Engine 建立了一个 Kubernetes 集群,以使用 Dask 进行一些数据预处理和建模。我使用 Helm following these instructions 安装了 Dask .

现在,我看到有两个文件夹,workexamples
enter image description here

我能够执行 example 中的笔记本内容文件夹确认一切都按预期工作。

我现在的问题如下

  • 在集群上工作时建议遵循哪些工作流程?我应该在 work 下创建一个新笔记本吗?并开始制作我的数据预处理脚本的原型(prototype)?
  • 如何确保在升级 Helm 部署时不会删除我的工作?您是否会在每次升级时手动将它们移动到存储桶中(这似乎很乏味)?或者您会创建一个简单的 vm 实例,在那里进行原型(prototype)制作,然后在完整数据集上运行时将所有内容移动到集群中?

  • 我不熟悉在云中的分布式环境中处理数据,因此欢迎提出任何建议。

    最佳答案

    What are the suggested workflow to follow when working on a cluster?



    有许多工作流程适用于不同的组。没有单一的祝福工作流程。

    Should I just create a new notebook under work and begin prototyping my data preprocessing scripts?



    当然,那会很好。

    How can I ensure that my work doesn't get erased whenever I upgrade my Helm deployment?



    您可以将数据保存到更永久的存储中,例如云存储或托管在其他地方的 git 存储库。

    Would you just manually move them to a bucket every time you upgrade (which seems tedious)?



    是的,那会起作用(是的,确实如此)

    or would you create a simple vm instance, prototype there, then move everything to the cluster when running on the full dataset?



    是的,这也可以。

    总之

    Helm 图表包括一个 Jupyter 笔记本服务器,以方便和轻松测试,但它不能替代成熟的长期持久生产力套件。为此,您可能会考虑像 JupyterHub 之类的项目(它处理您上面列出的问题)或当今市场上众多面向企业的变体之一。与其中任何一个一起使用 Dask 会很容易。

    关于kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55032804/

    相关文章:

    kubernetes - 如何为暴露多个端口的服务配置 Istio 的虚拟服务?

    kubernetes - 与服务器 10.0.x.x :6443 was refused after restarting the VM where kubernetes master was installed using kubeadm 的连接

    kubernetes - dockerfile 中的 EXPOSE 和服务 YAML 中的 TARGETPORT 与 Pod 中实际运行的端口有什么关系?

    python - 将 Dask DataFrame 存储为 pickle

    node.js - 通过 REST 进行 native Kubeless 调用

    kubernetes - 将LoadBalancer的ExternalIP分配给Deployment作为ENV变量

    python-2.7 - 什么会导致 dask 分布式 future 的状态为 'lost' ?

    celery - Airflow + celery 或 dask。为了什么,什么时候?

    python - Dask Dataframe read_sql_table 返回 TypeError

    python - 读取大量parquet文件: read_parquet vs from_delayed