我使用存储 blob 容器内的单个文件创建了一个 Azure ML 数据集。 Azure ML studio 门户随后显示数据集版本 1 中的 1 个文件。
我想再添加 2 个文件并创建一个新的数据集版本。因此,我将另外 2 个文件复制到同一个 blob 容器文件夹中。令人惊讶的是,甚至在我创建新的数据集版本之前,ML studio 门户 UI 就显示同一数据集中的文件数量为 3。(下图)。
然后我浏览了 Azure ML versioning告诉数据集的文档只是对原始数据的引用。我还看到了为新数据创建新文件夹的建议,并且我同意新文件没有按照建议复制到此处的新文件夹。
但是,先前创建的数据集版本的元数据(例如数据集中的文件、数据集的总大小等)仍在更新。如果数据集版本本身的元数据正在更新,Azure ML 数据集版本控制的重要性是什么?
相关question是在 SO 中,但作为错误关闭了。
最佳答案
版本控制将提高模型的准确性。根据提取的数据,我们可以在不同版本的数据集上运行预测模型。数据集可能包含相同的名称,但版本将包含不同的值。这支持在同一存储帐户支持上并行执行模型。
我们可以使用不同版本的数据集创建不同的 Auto ML 预测模型。
这两个版本已上传到同一 blobstorage,现在使用任一版本,我将运行预测模型(分类)。
上面的屏幕是 churn_analysis 作为 Auto ML 预测模型运行的情况,运行了 25% 的测试和 75% 的训练数据集。下图提到了该预测模型中使用的数据集版本。
以同样的方式,我们可以使用不同版本的训练集和测试集分割来建立预测模型,并且可以选择每个版本的模型类型。我们将在单个数据集上获得不同的模型结果,以便更好地理解数据。
关于azure - Azure ML 数据集版本控制的重要性是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73467442/