我正在致力于在 HDF5 表中实现相对较大(5,000,000 个且不断增长)的时间序列数据集。我需要一种方法来删除其上的重复项,每天一次,每天“运行”一次。就我目前的数据检索过程而言,在数据检索过程中写入重复项比确保不写入重复项要容易得多。
从 pytable 中删除重复项的最佳方法是什么?我所有的阅读都指向我将整个表导入 pandas,并获取唯一值的数据帧,并通过每次数据运行重新创建表将其写回磁盘。不过,这似乎与 pytables 的观点相反,而且我不知道整个数据集是否会有效地装入内存。我应该补充一点,它是定义唯一记录的两列。
没有可重现的代码,但有人能给我 pytables 数据管理建议吗?
提前非常感谢...
最佳答案
请参阅此相关问题:finding a duplicate in a hdf5 pytable with 500e6 rows
为什么说这“与 pytables 的观点相悖”?完全可以存储重复项。用户对此负责。
您也可以尝试这个:merging two tables with millions of rows in python ,您可以在其中使用简单的合并函数 drop_duplicates()
。
关于python - 如何确保大型 HDF5 中的唯一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21246039/