我得到了一个使用 pandas 创建的 20GB HDF5 文件,但不幸的是以固定格式(而不是表格)编写,每列编写为单独的键。这对于快速加载一项功能非常有效,但它不允许方便的面向表格的程序(例如统计分析或绘图)。
尝试加载整个文件会出现以下错误:
ValueError:当 HDF5 文件包含多个数据集时必须提供 key
。
f=pd.read_hdf('file_path')
ValueError Traceback (most recent call last)
384 for group_to_check in groups[1:]:
385 if not _is_metadata_of(group_to_check, candidate_only_group):
--> 386 raise ValueError('key must be provided when HDF5 file '
387 'contains multiple datasets.')
388 key = candidate_only_group._v_pathname
ValueError: key must be provided when HDF5 file contains multiple datasets.
不幸的是“key”不接受Python列表,所以我不能简单地一次性加载所有列表。有没有办法将 h5 文件从“固定”转换为“表格”?或者一次性将文件加载到数据帧?目前我的解决方案是单独加载每一列并附加到一个空数据框。
最佳答案
我不知道有任何其他方法可以逐列加载 df,但您可以使用 HDFStore
而不是 read_hdf
来极大地自动化此操作:
with pd.HDFStore(filename) as h5:
df = pd.concat(map(h5.get, h5.keys()), axis=1)
示例:
#save df as multiple datasets
df = pd.DataFrame({'a': [1,2], 'b': [10,20]})
df.a.to_hdf('/tmp/df.h5', 'a', mode='w', format='fixed')
df.b.to_hdf('/tmp/df.h5', 'b', mode='a', format='fixed')
#read columns and concat to dataframe
with pd.HDFStore('/tmp/df.h5') as h5:
df1 = pd.concat(map(h5.get, h5.keys()), axis=1)
#verify
assert all(df1 == df)
关于python - 如何使用 HDF 文件(固定格式,多个键)作为 pandas 数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62361617/