python - 在 HDF5 中列出组中的数据集

标签 python hdf5

我决定使用 HDF5 的层次结构而不是依赖文件系统将我的数据存储在 HDF5 中。 不幸的是,我遇到了性能问题。

我的数据格式如下: 我有大约 70 个顶级组,对应于日期,每个组包含大约 8000 个数据集。 我想查看每天的数据集数量列表:

for date in hdf5.keys():
   print(len(hdf5[date]))

我发现这需要 2 秒以上/迭代,这有点令人沮丧。

此外,我有两个具有上述布局的不同 hdf5 文件,较大的文件在这方面要慢得多。

我做错了什么?

最佳答案

尝试使用 libver latest 标志创建文件:

f = h5py.File('name.hdf5', libver='latest') 

如果每个组有很多数据集或每个数据集有很多属性,这会快得多。

关于python - 在 HDF5 中列出组中的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35953404/

相关文章:

python - DB2 python 插入字典列表

python - 使用带有 DateTimeIndex 项的 select 从 HDFStore 检索 Pandas DataFrame 时缺少一个值

c++ - 如何对hdf5时间序列进行查询

c++ - 如何在hdf5中存储模拟数据?

python - 使用 H5Py 在 HDF5 中存储日期时间

python - 使用 Python 检查项目是否在字典中并且为真

python - (Python) 当我在类定义之后调用方法对象时,为什么它不执行?

python - Python `multiprocessing` 中进程的 ident 和 pid 有什么区别?

python - 使用 Python 修复 HTML 标记括号

python - 写文件时指定h5py路径?