Azure ML 无法从 Parquet 文件(许多 Parquet 文件)读取表格数据集。
创建数据集
from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)
最佳答案
添加扩展:*.parquet:
from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn/*.parquet')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)
不一次将所有数据读入内存的其他方法是在 TabularDataset 上使用 skip()
和 take()
来仅请求部分源数据一次。
或者将 Parquet 文件装载为 FileDataset,然后为训练脚本中的文件子集构建单独的 TabularDataset。
关于azure-machine-learning-service - 读取 Parquet 文件失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65517560/