在我的组织中,我们正在尝试使用 HIVE 或 PIG 作为替代方案
主要目标:减少处理时间
NETEZZA 处理时间:90 分钟
希望结束流程:30 分钟内
流程如何运作:
Process即将维护增量历史。有两张表history_table和new_table。History表维护total history和new
_table 有更新的记录。所以每天都有更新的记录添加到历史表中。Process 有非常复杂的存储过程(Joins/deletion/insert/update)
多个表正在应用相同的过程。每个历史表都有近十亿条记录。
我的疑问:
- HIVE/PIG 的性能是否优于 NETEZZA?
- hive 中的 UDF 是否是存储过程的一个很好的替代方案,因为我想为多个表创建通用过程(我可以在其中传递表名作为参数)?
- 对于具有多个条件的非常复杂的连接、动态生成创建语句和异常处理,HIVE 或 PIG 哪个执行得更好?
最佳答案
使用 impala,它是 Hadoop 上的 Netezza,尝试 Kudu 进行实时和批处理,或者使用 HBase 进行实时和 impala 进行批处理,但是您可以使用 impala 查询 HBase
关于hadoop - HIVE 或 PIG 作为 NETEZZA 的替代品,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35725965/