Pandas :同一 HDF 中的大型数据帧?

标签 pandas hdf5 hdf

我有几个不同的相关数据框(如果需要,可以使用 id 加入它们)。但是,我并不总是同时需要它们。

由于它们非常大,将它们存储在单独的 HDF 存储中是否有意义?或者当我处理同一文件中的其他帧时,携带“未使用”帧的成本可以忽略不计吗?

最佳答案

理论上 如果您可以根据 IO 子系统(不同的主轴、不同的存储系统等)分离您的 HDF 文件,您可以尝试并行读取您的 DF,实际上我会测试它在您的特定情况下,您的硬件与您的数据等。

分离文件的另一个优势 - 如果您从包含多个 DF 的 HDF 存储中删除或显着减小一个巨大 DF 的大小 - 它的大小将保持不变。如果你有一个单独的文件,你可以简单地删除它并释放未使用的空间

关于 Pandas :同一 HDF 中的大型数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38520879/

相关文章:

python - Pandas 日期时间间隔重采样到秒

python - pandas 在 lambda 操作后更新数据框

python - 在 Pandas 分类中,格式 ="table"是什么?

python - 将 .h5 文件保存到 SQL 数据库

python - Pandas - read_hdf 或 store.select 返回不正确的查询结果

python - 在 pandas 中使用日期时间

python - HDFStore 更新存储的 HDF5 python pandas 数据帧

string - 如何在 Matlab 中的 HDF5 属性字符串中换行

java - 使用 Java native 库在 HDF5 中编写锯齿状数组

python - 将每日 Pandas 数据帧转换为分钟频率