python - pickle 转储 Pandas DataFrame

标签 python pandas dataframe pickle

这是一个懒人的问题。

我有 400 万行 pandas DataFrame,我想将它们保存到更小的 pickle 文件 block 中。

为什么更小的 block ? 更快地保存/加载它们。

我的问题是: 1) 有没有比使用 np.array_split 手动分块更好的方法(内置函数)将它们保存成更小的 block ?

2) 当我阅读 block 时,除了手动将它们粘合在一起之外,是否有任何优雅的方式将它们粘合在一起?

除了 pickle 之外,请随意建议适合此工作的任何其他数据类型。

最佳答案

如果目标是快速保存和加载,您应该查看 using sql而不是原始文本 pickle 。如果您的计算机在您要求它写入 400 万行时出现阻塞,您可以指定 block 大小。

从那里您可以使用 std 查询切片。 SQL。

关于python - pickle 转储 Pandas DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38515433/

相关文章:

python-3.x - 如何通过从特定列创建分组多标题来 reshape 数据框?

python - 使用 python/pandas 将数据标准化并绘制为堆积条形图

python - 当任务接近 30 秒限制时,App Engine 会引发哪个异常?

python - 计算与 pandas 框架中的条件匹配的行数(如果可能,使用数据的排序)

python - 用 bool 数组掩盖系列

python - Pandas 数据框中几列的总和

python - 使用 getattr 获取方法的对象引用

python - 具有 dict 输入的 Pandas "replace"根据 dict 顺序返回不同的结果(其中 dict 没有顺序)

python-3.x - Pandas 为多索引添加标题行

r - 按唯一行分布数据集