我正在尝试使用 dask_cudf
/dask
读取单个大型 parquet
文件(大小 > gpu_size),但它目前正在读取它到一个分区中,我猜这是从文档字符串推断出的预期行为:
dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs):
Read a Parquet file into a Dask DataFrame
This reads a directory of Parquet data into a Dask.dataframe, one file per partition.
It selects the index among the sorted columns if any exist.
是否有解决方法可以将其读入多个分区?
最佳答案
Parquet 数据集可以保存到单独的文件中。每个文件可能包含单独的行组。 Dask Dataframe 将每个 Parquet 行组读取到一个单独的分区中。
根据您所说的,听起来您的数据集只有一个行组。如果真是这样,那么不幸的是,Dask 在这里无能为力。
您可能想要返回数据源以查看它是如何保存的,并验证保存此数据集的任何进程是否以不会创建非常大的行组的方式进行保存。
关于dask - 如何使用 dask/dask-cudf 将单个大型 Parquet 文件读入多个分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58437182/