csv - 将h5文件转换为csv文件或文本文件进行数据处理

标签 csv hadoop hdf5

我有一个大约 1.85 GB 的数据集，其中包含 h5 文件，我需要使用 hadoop 处理这些文件，为此我可能需要将这些文件转换为文本或 csv。有什么方法可以让 hadoop 读取 h5 文件？或任何好的在线工具将 h5 文件转换为 csv 或文本文件？或者任何人都可以提供一个链接，我可以在其中下载包含文本或 csv 文件的巨大数据集？

提前致谢

最佳答案

您是否尝试过使用 hdf5_handler 模块的 OPeNDAP Hyrax 服务器？

例如，从示例 HDF5 文件 [1] 中，您可以获得以下 ASCII 数据 [2]:

Dataset: grid_1_2d.h5
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13
...

带有 hdf5_handler 的 OPeNDAP Hyrax 服务器是一个很棒的工具/服务，因为您也可以使用 HTML 表单轻松地从 HDF5 文件中选择(和子集)数据集 [3]。您可以从 [4] 中找到有关 OPeNDAP hdf5_handler 的详细信息。

[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5

[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii

[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html

[4] http://hdfeos.org/software/hdf5_handler.php

关于csv - 将h5文件转换为csv文件或文本文件进行数据处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18494665/