我一直在使用 Python/R 开发 Databricks 笔记本。工作完成后,我们需要终止集群以节省成本。 (因为我们正在使用机器)。
因此,如果我们想在任何笔记本上工作,我们还必须启动集群。我发现这需要花费很多时间并在集群中再次安装软件包。有什么办法可以避免每次启动集群时都安装吗?
最佳答案
更新:Databricks 现在允许自定义 Docker 容器。
不幸的是没有。
当您终止集群时,它的内存状态就会丢失,因此当您再次启动它时,它会带有一个干净的镜像。即使您将所需的包添加到初始化脚本中,每次初始化也必须安装它们。
您可以要求 Databricks 支持人员检查是否可以为您创建自定义集群镜像。
关于databricks - Databricks 集群每次启动时都会安装所有软件包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55455067/