hadoop - 如何squeop导入将新数据追加到分区配置单元表中,从而在同一分区列上创建新的分区文件夹?以下是我的情况

标签 hadoop hive hdfs sqoop partition

我在hive中的date列上有一个分区表,并且能够第一次将数据导入到hive分区表中。
当我执行此操作时,它会正确创建所有日期文件夹,并且数据已加载到Hive表的hdfs位置的每个文件夹中。
现在,当我想sqoop导入并将新数据再次追加到具有新更新日期的同一个配置单元表中时(这将在hdfs配置单元位置中创建新的日期分区文件夹)
并将新数据加载到表中。如何使用sqoop导入操作执行此操作?

最佳答案

以更易管理的方式对数据建模。使用创建日期作为分区而不是更新日期。据我所知,配置单元不支持更新分区,可能有解决方法,但可能很麻烦。因此,请使用不会更改的字段作为分区键。您是第一次使用静态分区sqoop导入吗?据我所知,除非您使用hcatelog,sqoop import仅支持导入usnig静态分区。
如果您还有其他解决方案,请点击这里,我遇到了类似的情况,并且如上所述进行了解决。

关于hadoop - 如何squeop导入将新数据追加到分区配置单元表中,从而在同一分区列上创建新的分区文件夹?以下是我的情况,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45960933/

相关文章:

hadoop - Spark : Export graph data to anything (Hive, 文本等)

hadoop - 我可以为只有一个输出文件的配置单元查询的输出选择我自己的名称吗?

hadoop - 配置单元 SerDe ClassCastException : java. lang.String 无法转换为 java.lang.Long

apache-spark - Spark 2.2 Join 因庞大的数据集而失败

hadoop - 在 HDFS Federation 中,我可以创建一个额外的名称节点作为所有名称节点的备用名称节点的设置吗?

hadoop - 无法通过 MapReduce 获得性能

python - Hadoop作业的描述

hadoop - 在集群中分布单个进程的最佳方法

Hadoop 警告消息 : 'execstack -c <libfile>' , 或将其与 '-z noexecstack' 链接

hadoop - 我想使用sqoop导入作业将数据压缩到配置单元列分区表中。我们应该怎么做?