有没有一种快速序列化 DataFrame 的方法?
我有一个可以并行运行 pandas 分析的网格系统。最后,我想从每个网格作业中收集所有结果(作为 DataFrame)并将它们聚合到一个巨大的 DataFrame 中。
如何以可以快速加载的二进制格式保存数据帧?
最佳答案
最简单的方法就是使用 to_pickle (作为 pickle ),参见 pickling from the docs api page :
df.to_pickle(file_name)
另一种选择是使用 HDF5 (建立在 PyTables 上)。入门的工作量稍微多一些,但查询的内容要丰富得多。
关于python - pandas DataFrame 的序列化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16971803/