python - 在 Dask 数据框操作中引用新创建的列

标签 python pandas dask

ddf['tx_code'] = ddf.apply(setTxCode,axis=1)

ddf = ddf.groupby(['CUST_ID','tx_code']).agg({'TRAN_AMT':sum})

ddf = ddf[ddf.tx_code=='SLIP']

df = ddf.compute()

在第三次操作时给我错误,说 DataFrame 对象没有属性 tx_code

最佳答案

当您执行groupby().agg()时,您通常会得到一个数据帧,其中以分组列条目作为索引,而不是列。这与 Pandas 的行为相同。如果你想选择一个作为一列,你可以执行df.reset_index(),或者你可以直接引用索引;在这种情况下,我更喜欢前者,因为多索引很难使用:

ddf['tx_code'] = ddf.apply(setTxCode,axis=1)

ddf = ddf.groupby(['CUST_ID','tx_code']).agg({'TRAN_AMT':sum}).reset_index()

ddf = ddf[ddf.tx_code=='SLIP]

df = ddf.compute()

关于python - 在 Dask 数据框操作中引用新创建的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51894019/

相关文章:

python - dask.multiprocessing 或 pandas + multiprocessing.pool : what's the difference?

python - 使用 Dask DataFrame 和 Pandas 高效读取 Timeseries CSV 数据目录

python - 类型错误:在 Pandas DataFrame 上使用 dask 时无法腌制 _thread._local 对象

python - spacy 中的词向量示例问题

python - 将两个日期之间的差值转换为整数

python - 使用 dateutil.parser 解析另一种语言的日期

python - 使 Tkinter 框架填充垂直轴

python - 迭代到多级 pandas DataFrame 的优雅方法

python - 在 Python 中从包含特殊字符的 CSV 单元格中提取字符串

python - Linux 和 Windows 中的输出不同?