我需要将数据集分割成 block ,目前我使用以下简单代码来完成此操作:
cases = []
for i in set(df['key']):
cases.append(df[df['key']==i].copy())
但是我的数据集很大,这最终需要几个小时,所以我想知道是否有一种方法可以使用多线程来加速这个过程?或者是否有其他方法可以加快速度?
最佳答案
我相当确定您想要按唯一键进行分组。使用内置功能来执行此操作。
cases = list(df.groupby('key'))
关于python - 如何优化 pandas 数据框的分块?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51274847/