hadoop - 将数据加载到Hive/Impala

标签 hadoop hive oozie impala

将增量数据加载到配置单元/黑斑羚表中的最佳方法是什么?

我按照以下步骤操作,但无法成功。

  • 从MR程序中,输出已写入HDFS的temp文件夹中。
  • 定义了一个指向临时文件夹(MR的输出文件夹)的外部临时表
  • 从临时表向我的目标表添加了load语句。
  • 在HDFS中删除临时表和临时文件夹。

  • 当我依次运行oozie工作流程时,上述方法工作正常。当我同时调用多个作业时,它在加载数据时被挂起。

    我无法按顺序运行数据加载。使它更有效的任何帮助,使我可以运行并行作业,这些作业将同时加载数据。

    最佳答案

    在我们的情况下,每次增量数据都会进入Hive表中的新分区。因此,在第3步(在上述步骤中),我们只需向表中添加一个新分区即可。

    如果有多个并行工作流,则如果每个工作流都将数据加载到新分区中,则应该可以正常工作。

    关于hadoop - 将数据加载到Hive/Impala,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23117410/

    相关文章:

    hadoop - 在Oozie EMR中安装ExtJS

    hadoop - Pig,Hive,Hbase,Oozie,Zookeeper在Hadoop 2.0和Hadoop 1.0的安装是一样的吗?

    oracle - Sqoop 增量导入和更新

    hadoop - 使用配置单元 SQL 提取不同字符之间的字符串

    hadoop - 替换 pig 中的字符

    hadoop - 获取 HBase 表所有者的命令

    mysql - 如何从 .csv 文件创建 Hive 表,该文件有一列,字段由分号分隔;

    hadoop - Oozie 3.1.3 中的 Hive 操作

    hadoop - 无法使用自定义可执行文件运行 EMR Hadoop Streaming 作业

    hadoop - 如何过滤hadoop mapreduce中文件的记录值?