我有几个不同的相关数据框(如果需要,可以使用 id 加入它们)。但是,我并不总是同时需要它们。
由于它们非常大,将它们存储在单独的 HDF 存储中是否有意义?或者当我处理同一文件中的其他帧时,携带“未使用”帧的成本可以忽略不计吗?
最佳答案
理论上 如果您可以根据 IO 子系统(不同的主轴、不同的存储系统等)分离您的 HDF 文件,您可以尝试并行读取您的 DF,实际上我会测试它在您的特定情况下,您的硬件与您的数据等。
分离文件的另一个优势 - 如果您从包含多个 DF 的 HDF 存储中删除或显着减小一个巨大 DF 的大小 - 它的大小将保持不变。如果你有一个单独的文件,你可以简单地删除它并释放未使用的空间
关于 Pandas :同一 HDF 中的大型数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38520879/