azure - Azure ML 数据集版本控制的重要性是什么?

标签 azure azure-machine-learning-service

我使用存储 blob 容器内的单个文件创建了一个 Azure ML 数据集。 Azure ML studio 门户随后显示数据集版本 1 中的 1 个文件。

我想再添加 2 个文件并创建一个新的数据集版本。因此,我将另外 2 个文件复制到同一个 blob 容器文件夹中。令人惊讶的是,甚至在我创建新的数据集版本之前,ML studio 门户 UI 就显示同一数据集中的文件数量为 3。(下图)。

然后我浏览了 Azure ML versioning告诉数据集的文档只是对原始数据的引用。我还看到了为新数据创建新文件夹的建议,并且我同意新文件没有按照建议复制到此处的新文件夹。

但是,先前创建的数据集版本的元数据(例如数据集中的文件、数据集的总大小等)仍在更新。如果数据集版本本身的元数据正在更新,Azure ML 数据集版本控制的重要性是什么?

enter image description here

相关question是在 SO 中,但作为错误关闭了。

最佳答案

版本控制将提高模型的准确性。根据提取的数据,我们可以在不同版本的数据集上运行预测模型。数据集可能包含相同的名称,但版本将包含不同的值。这支持在同一存储帐户支持上并行执行模型。

我们可以使用不同版本的数据集创建不同的 Auto ML 预测模型。

enter image description here

enter image description here

这两个版本已上传到同一 blobstorage,现在使用任一版本,我将运行预测模型(分类)。

enter image description here

上面的屏幕是 churn_analysis 作为 Auto ML 预测模型运行的情况,运行了 25% 的测试和 75% 的训练数据集。下图提到了该预测模型中使用的数据集版本。

enter image description here

以同样的方式,我们可以使用不同版本的训练集和测试集分割来建立预测模型,并且可以选择每个版本的模型类型。我们将在单个数据集上获得不同的模型结果,以便更好地理解数据。

关于azure - Azure ML 数据集版本控制的重要性是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73467442/

相关文章:

azure - 具有 Azure 应用服务身份验证的 .NET Core 应用

python - 如何在 ML Azure Pipeline 中使用环境

azure - 我无法在 azureml 设计器中选择按名称在要清理的列中,如我所附图片。我该如何处理这个问题?

python - 如何在 Azure ML 笔记本中使用 Bokeh

azure-machine-learning-studio - Azure 机器学习在运行管道时抛出错误 "Invalid graph: You have invalid compute target(s) in node(s)"

asp.net-mvc - 如何同时使用内部表单例份验证和 Azure AD 身份验证

c# - 并行/顺序调用 httpclient 的最佳实践是什么,具有非常好的性能并且不会丢失数据

azure - 如何使用 Powershell 将证书添加到 Azure RM 网站

Windows Azure - 部署到角色内的实例子集

machine-learning - Azure 机器学习甚至采样