python - 创建一个大的 pd.dataframe - 如何？

我想创建一个大型 pd.dataframe，包含 7 个 4GB .txt 文件，我想使用它并保存到 .csv

我做了什么:

创建了一个 for 循环并在 axis=0 上一一打开连接，然后继续我的索引(时间戳)。

但是，即使我在 100GB Ram 服务器上工作，我也遇到了内存问题。我在某处读到 pandas 占用了数据大小的 5-10 倍。

我的替代方案是什么？

一个是创建一个空的 csv - 打开它 + txt + 附加一个新 block 并保存。

还有其他想法吗？

最佳答案

使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它，而无需将所有数据加载到内存中。

此答案提供了如何创建和增量增加 hdf5 数据集的示例:incremental writes to hdf5 with h5py

关于python - 创建一个大的 pd.dataframe - 如何？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46640550/

相关文章：

python - 循环遍历 pandas 数据框，将公式应用于每个值