databricks - Databricks 集群每次启动时都会安装所有软件包

标签 databricks azure-databricks

我一直在使用 Python/R 开发 Databricks 笔记本。工作完成后,我们需要终止集群以节省成本。 (因为我们正在使用机器)。

因此,如果我们想在任何笔记本上工作,我们还必须启动集群。我发现这需要花费很多时间并在集群中再次安装软件包。有什么办法可以避免每次启动集群时都安装吗?

enter image description here

最佳答案

更新:Databricks 现在允许自定义 Docker 容器。

不幸的是没有。

当您终止集群时,它的内存状态就会丢失,因此当您再次启动它时,它会带有一个干净的镜像。即使您将所需的包添加到初始化脚本中,每次初始化也必须安装它们。

您可以要求 Databricks 支持人员检查是否可以为您创建自定义集群镜像。

关于databricks - Databricks 集群每次启动时都会安装所有软件包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55455067/

相关文章:

python - Spark : why is Decimal(36, 16) 6 位数字后四舍五入?

java - 如何从分布式环境访问位于 S3 存储桶中的 DBFS 文件?

odbc - ('01000' , "[01000] [unixODBC][Driver Manager]Can' t 打开库 '/opt/simba/spark/lib/64/libsparkodbc_sb64.so' : file not found (0) (SQLDriverConnect)")

sql - 在 Azure Databricks 的 Spark-SQL 中创建用户定义(非临时)函数

sql-server - 通过 Azure Databricks 连接到本地 SQL Server

python - 模块未找到错误: No module named 'dbutils'

azure - 如何直接从 Azure Databricks Notebook 读取 Azure Blob 存储文件

apache-spark - 从 Databricks Notebook 发送带有附件的电子邮件

azure - 如何处理来自 blob 存储且数据 block 中路径较长的多个文件?

azure - 如何从 Azure databricks 在 Azure Blob 中创建空文件夹