azure-machine-learning-service - 读取 Parquet 文件失败

标签 azure-machine-learning-service

Azure ML 无法从 Parquet 文件(许多 Parquet 文件)读取表格数据集。

创建数据集

from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)

最佳答案

添加扩展:*.parquet:

from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn/*.parquet')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)

不一次将所有数据读入内存的其他方法是在 TabularDataset 上使用 skip()take() 来仅请求部分源数据一次。 或者将 Parquet 文件装载为 FileDataset,然后为训练脚本中的文件子集构建单独的 TabularDataset。

这里有一个示例笔记本供您引用:https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/parallel-run/tabular-dataset-inference-iris.ipynb

关于azure-machine-learning-service - 读取 Parquet 文件失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65517560/

相关文章:

r - azuremlsdk R : How to convert dataset into R dataframe?

machine-learning - 发布具有特征哈希的 Azure 机器学习服务

macos - Mac 上的 Azure 命令行 'az ml' 无法正常工作

azure - 如何在 Azure 机器学习笔记本上安装 Jupyter 扩展?

python - 您是否能够将 uri_file 输入传递到 Azure ML 扫描作业中?

azure - 如何使用 python 正确地将数据输出到 Azure ML Batch Endpoint?

javascript - 使用 Javascript Ajax 调用的 Azure 机器学习

python-3.x - 使用 Azure 机器学习与 Python 的过度拟合/欠拟合机器学习模型

python - Azure MachineforMachine Learning 的测试数据中缺少数据

Azure 机器学习工作室 : Create DATASET via REST API