hadoop - 我可以直接从配置单元表中提取数据到H2O吗?

标签 hadoop hive h2o

我们将数据存储在配置单元文本文件和拼花地板文件中,是否可以将这些数据直接加载到H2O中,还是必须经历诸如csv或pandas数据框之类的中间步骤?

最佳答案

是的,您可以找到所需的所有信息here

H2O当前支持以下文件类型:

  • CSV(定界)文件(包括压缩的CSV文件)
  • ORC
  • SVMLight
  • ARFF
  • XLS
  • XLSX
  • Avro版本1.8.0(无多文件解析或列类型修改)
  • Parquet

  • 笔记:
  • ORC仅在H2O作为Hadoop作业运行时才可用。
  • 用户还可以导入以ORC格式保存的Hive文件。
  • 将并行数据导入集群时:
  • 如果数据是未压缩的csv文件,则H2O可以进行偏移读取,因此群集中的每个节点都可以并行地直接读取其csv文件的一部分。
  • 如果压缩了数据,则H2O必须先读取整个文件并将其解压缩,然后再进行并行读取。
    因此,如果您有从HDFS读取的非常大的数据文件,则最好使用解压缩的csv。但是,如果数据距离LAN较远,则最好使用压缩的csv。
  • 关于hadoop - 我可以直接从配置单元表中提取数据到H2O吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48915519/

    相关文章:

    java - apache drill如何查询HBase?

    java - hive 旧货服务器挂起

    hadoop - Apache Pig - 是否可以序列化变量?

    java - 组合器在HBase扫描mapreduce中为每个区域创建mapoutput文件

    hadoop - H2O群集无法正常工作(节点IP错误)

    Apache Kylin - 立方体构建第一步的错误输出

    hadoop - Hive数组与结构

    apache-spark - 无法使用 Apache Hudi 编写非分区表

    h2o - 如何将另一台机器连接到独立的 h2o 安装来创建集群?

    machine-learning - "Failed to connect to localhost port 54321: Connection refused"