我们正在研究Cloudera CDH,并尝试对存储在Apache Hadoop上的数据执行报告。我们每天向客户发送报告,因此需要每天从运营商店导入数据到hadoop。
Hadoop在仅追加模式下工作。因此,我们无法执行Hive更新/删除查询。我们可以对维表执行插入覆盖,并在事实表中添加增量值。每天为成行的增量行引入数千个解决方案似乎并不令人印象深刻。
还有其他更好的标准方法来更新Hadoop中的已修改数据吗?
谢谢
最佳答案
HDFS可能仅是附加的,但是Hive确实支持从0.14开始的更新。
看这里:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Update
一种设计模式是获取您之前和当前的所有数据,并每次将其插入到新表中。
根据您的用例,查看Apache Impala / Hbase / ...甚至Drill。
关于hadoop - 如何在Apache Hive中管理修改后的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35063326/