我在hive中的date列上有一个分区表,并且能够第一次将数据导入到hive分区表中。
当我执行此操作时,它会正确创建所有日期文件夹,并且数据已加载到Hive表的hdfs位置的每个文件夹中。
现在,当我想sqoop导入并将新数据再次追加到具有新更新日期的同一个配置单元表中时(这将在hdfs配置单元位置中创建新的日期分区文件夹)
并将新数据加载到表中。如何使用sqoop导入操作执行此操作?
最佳答案
以更易管理的方式对数据建模。使用创建日期作为分区而不是更新日期。据我所知,配置单元不支持更新分区,可能有解决方法,但可能很麻烦。因此,请使用不会更改的字段作为分区键。您是第一次使用静态分区sqoop导入吗?据我所知,除非您使用hcatelog
,sqoop import仅支持导入usnig静态分区。
如果您还有其他解决方案,请点击这里,我遇到了类似的情况,并且如上所述进行了解决。
关于hadoop - 如何squeop导入将新数据追加到分区配置单元表中,从而在同一分区列上创建新的分区文件夹?以下是我的情况,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45960933/