hadoop - 可以在近RDBMS方案中使用哪些hadoop框架

我们正处于一个项目的分析阶段，在该项目中，我们将替换基于hdfs和用于报告和查看的配置单元的旧存储系统。

但是我们得到了一个请求，如果我们可以使用hdfs来代替数据库工作的一部分。

预期的场景如下:

表将存储每日流量数据。.大约400个监视点。

第1点中的某些表将用作流程的输入，该流程将进行一些转换并转储到其他表。

第1和第2点中的表应用作将在报告门户中使用的 View 的基础表。用户可以随时访问该页面。

期望在任何步骤中加载错误，因此表应支持某些行的删除/更新。

大约50％的表可以超过亿万条记录..但其他表将分别为1k，50k，1M .. 10M ..，因为这是汇总信息。

在任何表上都可以使用联接聚合查询。

我知道hadoop的生态系统很大，可以有很多组合，因此我将寻求您的帮助来指导我。

Hive可以支持部分情况，例如点1,2和3.。但是以这种方式(在操作上)使用它是可行的。

还有什么可以用来覆盖大多数此类情况？ hbase，kudu ..还有其他东西吗？

原谅我..我是新来的

最佳答案

您可以尝试利用Apache Phoenix:http://phoenix.apache.org/
由于该应用程序易于通过HBase安装，因此允许表定义和SQL语法，还支持 View ，还支持二级索引。

当然，加入和聚合都需要付出一定的代价。并且仍然需要一个好的模型。

关于hadoop - 可以在近RDBMS方案中使用哪些hadoop框架，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58756877/