python - 如何确保大型 HDF5 中的唯一行

我正在致力于在 HDF5 表中实现相对较大(5,000,000 个且不断增长)的时间序列数据集。我需要一种方法来删除其上的重复项，每天一次，每天“运行”一次。就我目前的数据检索过程而言，在数据检索过程中写入重复项比确保不写入重复项要容易得多。

从 pytable 中删除重复项的最佳方法是什么？我所有的阅读都指向我将整个表导入 pandas，并获取唯一值的数据帧，并通过每次数据运行重新创建表将其写回磁盘。不过，这似乎与 pytables 的观点相反，而且我不知道整个数据集是否会有效地装入内存。我应该补充一点，它是定义唯一记录的两列。

没有可重现的代码，但有人能给我 pytables 数据管理建议吗？

提前非常感谢...

最佳答案

为什么说这“与 pytables 的观点相悖”？完全可以存储重复项。用户对此负责。

您也可以尝试这个:merging two tables with millions of rows in python ，您可以在其中使用简单的合并函数 drop_duplicates()。

关于python - 如何确保大型 HDF5 中的唯一行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21246039/

相关文章：

python - 读取带有页脚和末尾任意数量的空白行的 csv 时出现问题