python - 如何确保大型 HDF5 中的唯一行

标签 python pandas hdf5 pytables

我正在致力于在 HDF5 表中实现相对较大(5,000,000 个且不断增长)的时间序列数据集。我需要一种方法来删除其上的重复项,每天一次,每天“运行”一次。就我目前的数据检索过程而言,在数据检索过程中写入重复项比确保不写入重复项要容易得多。

从 pytable 中删除重复项的最佳方法是什么?我所有的阅读都指向我将整个表导入 pandas,并获取唯一值的数据帧,并通过每次数据运行重新创建表将其写回磁盘。不过,这似乎与 pytables 的观点相反,而且我不知道整个数据集是否会有效地装入内存。我应该补充一点,它是定义唯一记录的两列。

没有可重现的代码,但有人能给我 pytables 数据管理建议吗?

提前非常感谢...

最佳答案

请参阅此相关问题:finding a duplicate in a hdf5 pytable with 500e6 rows

为什么说这“与 pytables 的观点相悖”?完全可以存储重复项。用户对此负责。

您也可以尝试这个:merging two tables with millions of rows in python ,您可以在其中使用简单的合并函数 drop_duplicates()

关于python - 如何确保大型 HDF5 中的唯一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21246039/

相关文章:

python - 读取带有页脚和末尾任意数量的空白行的 csv 时出现问题

python - HDF5 : storing NumPy data

python - 在 Pandas 分类中,格式 ="table"是什么?

python - 带有字符串和整数的列表上的最大/最小函数

Python 3.2 64 位 Numpy 安装 - LaPack 错误

python - Pandas :在x轴上绘制时间直方图

python - Keras 自定义数据生成器,适用于无法放入内存的大型 hdf5 文件

python - Groupby 和加权平均

python - 如何将值设置为 pandas DataFrame 的一列?

python - 在csv文件中添加索引列