hadoop - 如何在Apache Hive中管理修改后的数据

标签 hadoop hive reporting updates business-intelligence

我们正在研究Cloudera CDH,并尝试对存储在Apache Hadoop上的数据执行报告。我们每天向客户发送报告,因此需要每天从运营商店导入数据到hadoop。

Hadoop在仅追加模式下工作。因此,我们无法执行Hive更新/删除查询。我们可以对维表执行插入覆盖,并在事实表中添加增量值。每天为成行的增量行引入数千个解决方案似乎并不令人印象深刻。

还有其他更好的标准方法来更新Hadoop中的已修改数据吗?

谢谢

最佳答案

HDFS可能仅是附加的,但是Hive确实支持从0.14开始的更新。

看这里:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Update

一种设计模式是获取您之前和当前的所有数据,并每次将其插入到新表中。

根据您的用例,查看Apache Impala / Hbase / ...甚至Drill。

关于hadoop - 如何在Apache Hive中管理修改后的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35063326/

相关文章:

hadoop - 错误 : E0902: Exception occured: [User: Root is not allowed to impersonate root

hadoop - 区分 Hive 中的多个列

excel - 向没有 Power BI 的用户提供 Power BI

c# - Crystal 报表数据库登录失败

hadoop - 在 AWS 中使用 weka 将主机名分配给 hadoop 作业

Hadoop Dedoop 应用程序无法联系 Hadoop Namenode : Getting "Unable to contact Namenode" error

android - 我们可以在 Android 中使用 Hadoop 和任何 NoSQL 数据库来代替 SQLite

hadoop - 列名 DIV 在配置单元中显示错误

mysql - Hive:无法连接到 Docker 内的 SQL

java - 实时报告 Tomcat Webserver