python - 在dask数据帧上使用groupby

标签 python pandas dask

我有几个关于在dask数据帧上使用groupby的问题。
据我所知,在一个groupby结果上迭代,就像在Pandas中那样,在dask中是行不通的。

for name, group in sorted(grouped.groups):
    logger.info((name, group))

是不允许的。我们应该改用apply
但是,如果我想知道熊猫的数量,我可以做以下工作:
 len(grouped.groups)

通过使用apply,我希望能够对dask数据帧上的groupby执行此操作:
 d_grouped.apply(len)

但那不管用。如何找出由dask数据帧上的groupby生成的组数?

最佳答案

几乎可以肯定的是,要确定组的数量,就需要查看所有的数据。因此,我认为这是一个昂贵的计算。如果必须计算该数字,可以尝试以下操作:
使用重复放置
您可以返回原始数据帧(此处:ddf),选择用于groupby的列(在我的示例中是[A, B]或只是A),并计算结果的长度:

pdf = pd.DataFrame(dict(A=[0,0,0,1,1,1,2], B=[0,0,0,1,1,2,2]))
ddf = dd.from_pandas(pdf, npartitions = 2)
len(ddf[['A', 'B']].drop_duplicates()) ## 4 groups
len(ddf['A'].drop_duplicates()) ## 3 groups

虽然这需要加载所有数据,但不需要洗牌。
对每组应用lambda x: 1并计算结果的长度
您还可以对groupby对象应用一个简单的函数并计算结果的长度:
len(ddf.groupby('A').apply(lambda x: 1).compute())

因为这可能会触发一次完全的洗牌,这可能会导致非常低的性能,所以我建议使用第一种方法。

关于python - 在dask数据帧上使用groupby,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40857100/

相关文章:

python - 用 Numpy 向量化操作替换 For 循环

python - Pandas 从列表中重命名 df 行

python - 转换为 Pandas Dataframe 的 True/False 值

python - 通过读取 Python 的 dask 模块中的 pickle 文件来创建 dask 数据框

Python索引二维数组

python - 如何删除存储在python列表中的子列表

python如何在不重复的情况下将新对象保存到列表中

python - 将一个 pandas DataFrame 的副本合并到另一个 DataFrame 的每一行中?

python - dask 中的高效排序差异

python - 如何调试 Kubernetes 中部署的 Dask Gateway 中的 CommClosedError