azure - Azure ML 数据集版本控制的重要性是什么？

我使用存储 blob 容器内的单个文件创建了一个 Azure ML 数据集。 Azure ML studio 门户随后显示数据集版本 1 中的 1 个文件。

我想再添加 2 个文件并创建一个新的数据集版本。因此，我将另外 2 个文件复制到同一个 blob 容器文件夹中。令人惊讶的是，甚至在我创建新的数据集版本之前，ML studio 门户 UI 就显示同一数据集中的文件数量为 3。(下图)。

然后我浏览了 Azure ML versioning告诉数据集的文档只是对原始数据的引用。我还看到了为新数据创建新文件夹的建议，并且我同意新文件没有按照建议复制到此处的新文件夹。

但是，先前创建的数据集版本的元数据(例如数据集中的文件、数据集的总大小等)仍在更新。如果数据集版本本身的元数据正在更新，Azure ML 数据集版本控制的重要性是什么？

_{相关question是在 SO 中，但作为错误关闭了。}

最佳答案

版本控制将提高模型的准确性。根据提取的数据，我们可以在不同版本的数据集上运行预测模型。数据集可能包含相同的名称，但版本将包含不同的值。这支持在同一存储帐户支持上并行执行模型。

我们可以使用不同版本的数据集创建不同的 Auto ML 预测模型。

这两个版本已上传到同一 blobstorage，现在使用任一版本，我将运行预测模型(分类)。

上面的屏幕是 churn_analysis 作为 Auto ML 预测模型运行的情况，运行了 25% 的测试和 75% 的训练数据集。下图提到了该预测模型中使用的数据集版本。

以同样的方式，我们可以使用不同版本的训练集和测试集分割来建立预测模型，并且可以选择每个版本的模型类型。我们将在单个数据集上获得不同的模型结果，以便更好地理解数据。

关于azure - Azure ML 数据集版本控制的重要性是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/73467442/

相关文章：

azure - 具有 Azure 应用服务身份验证的 .NET Core 应用