我决定使用 HDF5 的层次结构而不是依赖文件系统将我的数据存储在 HDF5 中。 不幸的是,我遇到了性能问题。
我的数据格式如下: 我有大约 70 个顶级组,对应于日期,每个组包含大约 8000 个数据集。 我想查看每天的数据集数量列表:
for date in hdf5.keys():
print(len(hdf5[date]))
我发现这需要 2 秒以上/迭代,这有点令人沮丧。
此外,我有两个具有上述布局的不同 hdf5 文件,较大的文件在这方面要慢得多。
我做错了什么?
最佳答案
尝试使用 libver latest 标志创建文件:
f = h5py.File('name.hdf5', libver='latest')
如果每个组有很多数据集或每个数据集有很多属性,这会快得多。
关于python - 在 HDF5 中列出组中的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35953404/