我想创建一个大型 pd.dataframe,包含 7 个 4GB .txt 文件,我想使用它并保存到 .csv
我做了什么:
创建了一个 for 循环并在 axis=0 上一一打开连接,然后继续我的索引(时间戳)。
但是,即使我在 100GB Ram 服务器上工作,我也遇到了内存问题。我在某处读到 pandas 占用了数据大小的 5-10 倍。
我的替代方案是什么?
一个是创建一个空的 csv - 打开它 + txt + 附加一个新 block 并保存。
还有其他想法吗?
最佳答案
使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它,而无需将所有数据加载到内存中。
此答案提供了如何创建和增量增加 hdf5 数据集的示例:incremental writes to hdf5 with h5py
关于python - 创建一个大的 pd.dataframe - 如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46640550/