hadoop - HIVE 或 PIG 作为 NETEZZA 的替代品

标签 hadoop hive apache-pig netezza bigdata

在我的组织中，我们正在尝试使用 HIVE 或 PIG 作为替代方案

主要目标:减少处理时间
NETEZZA 处理时间:90 分钟
希望结束流程:30 分钟内

流程如何运作:
Process即将维护增量历史。有两张表history_table和new_table。History表维护total history和new _table 有更新的记录。所以每天都有更新的记录添加到历史表中。Process 有非常复杂的存储过程(Joins/deletion/insert/update)
多个表正在应用相同的过程。每个历史表都有近十亿条记录。

我的疑问:

HIVE/PIG 的性能是否优于 NETEZZA？
hive 中的 UDF 是否是存储过程的一个很好的替代方案，因为我想为多个表创建通用过程(我可以在其中传递表名作为参数)？
对于具有多个条件的非常复杂的连接、动态生成创建语句和异常处理，HIVE 或 PIG 哪个执行得更好？

最佳答案

使用 impala，它是 Hadoop 上的 Netezza，尝试 Kudu 进行实时和批处理，或者使用 HBase 进行实时和 impala 进行批处理，但是您可以使用 impala 查询 HBase

关于hadoop - HIVE 或 PIG 作为 NETEZZA 的替代品，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35725965/

上一篇：hadoop - 如何在 Apache PIG 中对日期进行排序？

下一篇：hadoop - 对多个作业使用相同的 JavaSparkContext 以防止在 spark 驱动程序初始化时使用时间

hadoop - PIG:如何为PARALLEL子句选择良好的值(value)？

Hive 结果保存为 parquet 文件

hadoop - Hadoop MapReduce中Mapper/Reducer的设置和清理方法

tcp - 网络错误(Tcp错误)

json - 配置单元 : How to explode a JSON column embedded in a CSV file?

hadoop - 如何编写查询以查找HIVE db中具有特定列名的所有表

HiveQL - 如何查找列值是数字还是不使用任何 UDF？

hadoop - 如何将CONCAT()函数的结果传递给Pig中的UDF？

unix - hive 和UNIX脚本