hadoop - 可以在近RDBMS方案中使用哪些hadoop框架

标签 hadoop hive hdfs hbase

我们正处于一个项目的分析阶段,在该项目中,我们将替换基于hdfs和用于报告和查看的配置单元的旧存储系统。

但是我们得到了一个请求,如果我们可以使用hdfs来代替数据库工作的一部分。

预期的场景如下:

  • 表将存储每日流量数据。.大约400个监视点。
  • 第1点中的某些表将用作流程的输入,该流程将进行一些转换并转储到其他表。
  • 第1和第2点中的表应用作将在报告门户中使用的 View 的基础表。用户可以随时访问该页面。
  • 期望在任何步骤中加载错误,因此表应支持某些行的删除/更新。
  • 大约50%的表可以超过亿万条记录..但其他表将分别为1k,50k,1M .. 10M ..,因为这是汇总信息。
  • 在任何表上都可以使用联接聚合查询。

  • 我知道hadoop的生态系统很大,可以有很多组合,因此我将寻求您的帮助来指导我。
  • Hive可以支持部分情况,例如点1,2和3.。但是以这种方式(在操作上)使用它是可行的。
  • 还有什么可以用来覆盖大多数此类情况? hbase,kudu ..还有其他东西吗?

  • 原谅我..我是新来的

    最佳答案

    您可以尝试利用Apache Phoenix:http://phoenix.apache.org/
    由于该应用程序易于通过HBase安装,因此允许表定义和SQL语法,还支持 View ,还支持二级索引。

    当然,加入和聚合都需要付出一定的代价。并且仍然需要一个好的模型。

    关于hadoop - 可以在近RDBMS方案中使用哪些hadoop框架,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58756877/

    相关文章:

    hadoop - 启动Hive CLI时出现奇怪的ServiceConfigurationError

    hadoop - 如何解决在Windows 10中的Eclipse中执行map-reduce java代码时遇到的问题?

    java - job.getFileCache从HDFS提供Hadoop中的空文件

    hadoop - 推特数据分析

    java - mapreduce 计数差异

    tsql - 如何跳过在 HIVE 命令行中显示结果?

    Hadoop 高可用性不工作

    java - Hadoop 2.x 中的分布式缓存

    hadoop - 配置单元:无结果显示

    hadoop - 与 Shark 服务器的 JDBC 连接挂起