python - pandas DataFrame 的序列化

标签 python pandas

有没有一种快速序列化 DataFrame 的方法?

我有一个可以并行运行 pandas 分析的网格系统。最后,我想从每个网格作业中收集所有结果(作为 DataFrame)并将它们聚合到一个巨大的 DataFrame 中。

如何以可以快速加载的二进制格式保存数据帧?

最佳答案

最简单的方法就是使用 to_pickle (作为 pickle ),参见 pickling from the docs api page :

df.to_pickle(file_name)

另一种选择是使用 HDF5 (建立在 PyTables 上)。入门的工作量稍微多一些,但查询的内容要丰富得多。

关于python - pandas DataFrame 的序列化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16971803/

相关文章:

python - 如何创建包含 gpiozero 的可执行文件?

python - 为什么使用 Nginx 运行 Flask 需要 WSGI 包装器?

python Pandas : export structure only (no rows) of a dataframe to SQL

python - 从返回的数据中删除索引

python - Pandas 数据框的列总和并与其他数据结合

python - 解析两个大数据帧时出现内存错误

python - 求曲线中的线性部分和斜率

java - Python - Java 数学运算给出不同的结果

python - 使用 Python 中的 Pandas,为每个组选择最高值的行

python - Pandas:合并日期时间间隔