azure - 我什么时候应该使用 Azure ML Notebooks 和 Azure Databricks?我认为两者都是竞争对手的产品

标签 azure machine-learning databricks azure-machine-learning-service

非常不言自明的问题。我什么时候应该使用 Azure ML Notebooks 和 Azure Databricks?我觉得这两种产品之间有很大的重叠,其中一种产品的营销肯定比另一种更好。

我主要寻找有关数据集大小和典型工作流程的信息。如果我没有面向 Spark 的工作流程,为什么应该使用 Databricks 而不是 AzureML?

谢谢!

最佳答案

@Nethim,从我的角度来看,这些是主要区别:

  1. 数据分布:

    • 当您在单台计算机上使用有限的数据进行训练时,Azure ML Notebook 非常有用。虽然Azure ML提供了训练集群,但节点之间的数据分布是在代码中处理的。
    • Azure Databricks 及其 RDD 旨在处理分布在多个节点上的数据。当您的数据量很大时,这是有利的。当您的数据量很小并且可以容纳在扩大的单台计算机中/您正在使用 pandas 数据框时,那么使用 Azure databricks 就有点大材小用了
  2. 数据清理: Databricks 可以原生支持多种文件格式,并且查询和清理大型数据集很容易,因为这必须在 AzureML 笔记本中进行自定义处理。这可以通过 aml 笔记本来完成,但必须处理清理和写入存储的工作。

  3. 培训 两者都具有分布式训练的功能,Databricks 提供内置的 ML 算法,可以作用于该节点上的数据 block 并与其他节点协调。虽然这可以通过 tf、horovod 等在 AzureMachineLearning 和 Databricks 上完成,

一般来说(只是我的观点),如果数据集很小,aml笔记本就很好。如果数据量很大,那么Azure databricks很容易进行数据清理和格式转换。然后可以在AML或databricks上进行训练。虽然 databricks 有一个学习曲线,但 Azure ML 使用 python 和 pandas 可以很容易。

谢谢。

关于azure - 我什么时候应该使用 Azure ML Notebooks 和 Azure Databricks?我认为两者都是竞争对手的产品,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60978808/

相关文章:

machine-learning - 梯度下降收敛 如何判断收敛?

python - 具有不同 k-hot 编码向量的 LSTM

machine-learning - 停止机器学习训练,但使用 Vowpal Wabbit 保持模型的当前状态

python - 如何将 pandas 数据帧写入 Databricks dbfs/FileStore?

.net - 从 .Net UI 在 Databricks 上运行 Spark SQL 查询

azure - 如何使用 Azure SDK 创建应用程序注册

azure - 在不同订阅上部署 Power Platform 组件

Azure 应用程序网关 : 502/SNI/SSL issue? 应用服务配置

azure - 如何在 Azure 中创建多个具有不同规范的 VM

pandas - Koalas GroupBy > 应用 > Lambda > 系列