python - 创建一个大的 pd.dataframe - 如何?

标签 python pandas dataframe out-of-memory

我想创建一个大型 pd.dataframe,包含 7 个 4GB .txt 文件,我想使用它并保存到 .csv

我做了什么:

创建了一个 for 循环并在 axis=0 上一一打开连接,然后继续我的索引(时间戳)。

但是,即使我在 100GB Ram 服务器上工作,我也遇到了内存问题。我在某处读到 pandas 占用了数据大小的 5-10 倍。

我的替代方案是什么?

一个是创建一个空的 csv - 打开它 + txt + 附加一个新 block 并保存。

还有其他想法吗?

最佳答案

使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它,而无需将所有数据加载到内存中。

此答案提供了如何创建和增量增加 hdf5 数据集的示例:incremental writes to hdf5 with h5py

关于python - 创建一个大的 pd.dataframe - 如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46640550/

相关文章:

python - 循环遍历 pandas 数据框,将公式应用于每个值

python - for - else 与 elif

R 阶函数的 Python 等效项

python - 可视化 pandas/numpy 中的共现矩阵

r - 如何通过配对列来对数据框进行子集化

python - 从 Pandas 数据框计算平均值

python - 如何避免使用 super() 进行无限递归?

python - 科学计算和 Ipython 笔记本 : How to organize code?

python - Django 中 `annotate` + `values` + `union` 的错误结果

python - 如何在 Pandas 中执行相当于相关子查询的操作