hadoop - 我可以直接从配置单元表中提取数据到H2O吗？

我们将数据存储在配置单元文本文件和拼花地板文件中，是否可以将这些数据直接加载到H2O中，还是必须经历诸如csv或pandas数据框之类的中间步骤？

最佳答案

是的，您可以找到所需的所有信息here

H2O当前支持以下文件类型:

CSV(定界)文件(包括压缩的CSV文件)

ORC

SVMLight

ARFF

XLS

XLSX

Avro版本1.8.0(无多文件解析或列类型修改)

Parquet

笔记:

ORC仅在H2O作为Hadoop作业运行时才可用。

用户还可以导入以ORC格式保存的Hive文件。

将并行数据导入集群时:

如果数据是未压缩的csv文件，则H2O可以进行偏移读取，因此群集中的每个节点都可以并行地直接读取其csv文件的一部分。

如果压缩了数据，则H2O必须先读取整个文件并将其解压缩，然后再进行并行读取。
因此，如果您有从HDFS读取的非常大的数据文件，则最好使用解压缩的csv。但是，如果数据距离LAN较远，则最好使用压缩的csv。

关于hadoop - 我可以直接从配置单元表中提取数据到H2O吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48915519/

相关文章：

java - apache drill如何查询HBase？