dask - 如何使用 dask/dask-cudf 将单个大型 Parquet 文件读入多个分区?

标签 dask cudf

我正在尝试使用 dask_cudf/dask 读取单个大型 parquet 文件(大小 > gpu_size),但它目前正在读取它到一个分区中,我猜这是从文档字符串推断出的预期行为:

dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs):

    Read a Parquet file into a Dask DataFrame
    This reads a directory of Parquet data into a Dask.dataframe, one file per partition. 
    It selects the index among the sorted columns if any exist.

是否有解决方法可以将其读入多个分区?

最佳答案

Parquet 数据集可以保存到单独的文件中。每个文件可能包含单独的行组。 Dask Dataframe 将每个 Parquet 行组读取到一个单独的分区中。

根据您所说的,听起来您的数据集只有一个行组。如果真是这样,那么不幸的是,Dask 在这里无能为力。

您可能想要返回数据源以查看它是如何保存的,并验证保存此数据集的任何进程是否以不会创建非常大的行组的方式进行保存。

关于dask - 如何使用 dask/dask-cudf 将单个大型 Parquet 文件读入多个分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58437182/

相关文章:

dask - 如何使用Dask使用所有CPU核心?

python - 迭代 dask 系列(从 dask 系列获取唯一值以列表)

python - 有没有办法在 Dask/Distributed 中注册 Jupyter Notebook 进度条小部件而不是文本进度条?

python - Dask 存储/读取不适合内存的稀疏矩阵

python - 无法使用 Rapids.ai 版本 21.08 将 cudf、cupy 和 cuml 安装到 colab 中

python - CUDF/Python 警告 : "User Warning: No NVIDIA GPU detected"

rapids - 使用 rapids.ai 时如何确定内存统计信息?

dask - 如何设置登录 dask 分布式 worker ?