hadoop - 如何在Apache Hive中管理修改后的数据

标签 hadoop hive reporting updates business-intelligence

我们正在研究Cloudera CDH，并尝试对存储在Apache Hadoop上的数据执行报告。我们每天向客户发送报告，因此需要每天从运营商店导入数据到hadoop。

Hadoop在仅追加模式下工作。因此，我们无法执行Hive更新/删除查询。我们可以对维表执行插入覆盖，并在事实表中添加增量值。每天为成行的增量行引入数千个解决方案似乎并不令人印象深刻。

还有其他更好的标准方法来更新Hadoop中的已修改数据吗？

谢谢

最佳答案

HDFS可能仅是附加的，但是Hive确实支持从0.14开始的更新。

看这里:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Update

一种设计模式是获取您之前和当前的所有数据，并每次将其插入到新表中。

根据您的用例，查看Apache Impala / Hbase / ...甚至Drill。

关于hadoop - 如何在Apache Hive中管理修改后的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35063326/

上一篇：amazon-web-services - AWS Elastic Beanstalk Docker环境变量

下一篇：python - 为什么 'fig build'返回:AttributeError: 'WrappedSocket'对象没有属性 'recvfrom'？

hadoop - 区分 Hive 中的多个列

excel - 向没有 Power BI 的用户提供 Power BI

c# - Crystal 报表数据库登录失败

hadoop - 在 AWS 中使用 weka 将主机名分配给 hadoop 作业

Hadoop Dedoop 应用程序无法联系 Hadoop Namenode : Getting "Unable to contact Namenode" error

android - 我们可以在 Android 中使用 Hadoop 和任何 NoSQL 数据库来代替 SQLite

hadoop - 列名 DIV 在配置单元中显示错误

mysql - Hive:无法连接到 Docker 内的 SQL

java - 实时报告 Tomcat Webserver