我有一个大约 1.85 GB 的数据集,其中包含 h5 文件,我需要使用 hadoop 处理这些文件,为此我可能需要将这些文件转换为文本或 csv。 有什么方法可以让 hadoop 读取 h5 文件?或任何好的在线工具将 h5 文件转换为 csv 或文本文件?或者任何人都可以提供一个链接,我可以在其中下载包含文本或 csv 文件的巨大数据集?
提前致谢
最佳答案
您是否尝试过使用 hdf5_handler 模块的 OPeNDAP Hyrax 服务器?
例如,从示例 HDF5 文件 [1] 中,您可以获得以下 ASCII 数据 [2]:
Dataset: grid_1_2d.h5
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13
...
带有 hdf5_handler 的 OPeNDAP Hyrax 服务器是一个很棒的工具/服务,因为您也可以使用 HTML 表单轻松地从 HDF5 文件中选择(和子集)数据集 [3]。您可以从 [4] 中找到有关 OPeNDAP hdf5_handler 的详细信息。
[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5
[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii
[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html
关于csv - 将h5文件转换为csv文件或文本文件进行数据处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18494665/