csv - 将h5文件转换为csv文件或文本文件进行数据处理

标签 csv hadoop hdf5

我有一个大约 1.85 GB 的数据集,其中包含 h5 文件,我需要使用 hadoop 处理这些文件,为此我可能需要将这些文件转换为文本或 csv。 有什么方法可以让 hadoop 读取 h5 文件?或任何好的在线工具将 h5 文件转换为 csv 或文本文件?或者任何人都可以提供一个链接,我可以在其中下载包含文本或 csv 文件的巨大数据集?

提前致谢

最佳答案

您是否尝试过使用 hdf5_handler 模块的 OPeNDAP Hyrax 服务器?

例如,从示例 HDF5 文件 [1] 中,您可以获得以下 ASCII 数据 [2]:

Dataset: grid_1_2d.h5
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13
...

带有 hdf5_handler 的 OPeNDAP Hyrax 服务器是一个很棒的工具/服务,因为您也可以使用 HTML 表单轻松地从 HDF5 文件中选择(和子集)数据集 [3]。您可以从 [4] 中找到有关 OPeNDAP hdf5_handler 的详细信息。

[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5

[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii

[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html

[4] http://hdfeos.org/software/hdf5_handler.php

关于csv - 将h5文件转换为csv文件或文本文件进行数据处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18494665/

相关文章:

xml - 解析 XML 并找到字符串的所有实例

templates - 用于 CSV 导入的 Libreoffice Calc 模板

hadoop - Hadoop 中的 Writable 和 WritableComparable?

java - Hadoop 作业返回异常 "classNotFound"

c++ - HDF5 简单读取数据集失败

python - 在不加载到内存的情况下将 HDF5 转换为 Parquet

python - 使用 HDF5 和 Pandas 通过分块读取数据

java - 更快地读取文件

Python3 在 tar 文件中处理 csv 文件

amazon-web-services - 如何在AWS EMR上安装Hadoop 3?