python - 在 HDF5 中列出组中的数据集

我决定使用 HDF5 的层次结构而不是依赖文件系统将我的数据存储在 HDF5 中。不幸的是，我遇到了性能问题。

我的数据格式如下: 我有大约 70 个顶级组，对应于日期，每个组包含大约 8000 个数据集。我想查看每天的数据集数量列表:

for date in hdf5.keys():
   print(len(hdf5[date]))

我发现这需要 2 秒以上/迭代，这有点令人沮丧。

此外，我有两个具有上述布局的不同 hdf5 文件，较大的文件在这方面要慢得多。

我做错了什么？

最佳答案

尝试使用 libver latest 标志创建文件:

f = h5py.File('name.hdf5', libver='latest')

如果每个组有很多数据集或每个数据集有很多属性，这会快得多。

关于python - 在 HDF5 中列出组中的数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35953404/

相关文章：

python - DB2 python 插入字典列表