hadoop - HIVE 或 PIG 作为 NETEZZA 的替代品

标签 hadoop hive apache-pig netezza bigdata

在我的组织中,我们正在尝试使用 HIVE 或 PIG 作为替代方案

主要目标:减少处理时间
NETEZZA 处理时间:90 分钟
希望结束流程:30 分钟内

流程如何运作:
Process即将维护增量历史。有两张表history_table和new_table。History表维护total history和new _table 有更新的记录。所以每天都有更新的记录添加到历史表中。Process 有非常复杂的存储过程(Joins/deletion/insert/update)
多个表正在应用相同的过程。每个历史表都有近十亿条记录。

我的疑问:

  • HIVE/PIG 的性能是否优于 NETEZZA?
  • hive 中的 UDF 是否是存储过程的一个很好的替代方案,因为我想为多个表创建通用过程(我可以在其中传递表名作为参数)?
  • 对于具有多个条件的非常复杂的连接、动态生成创建语句和异常处理,HIVE 或 PIG 哪个执行得更好?

最佳答案

使用 impala,它是 Hadoop 上的 Netezza,尝试 Kudu 进行实时和批处理,或者使用 HBase 进行实时和 impala 进行批处理,但是您可以使用 impala 查询 HBase

关于hadoop - HIVE 或 PIG 作为 NETEZZA 的替代品,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35725965/

相关文章:

hadoop - apache thrift 传输 TTransportException

hadoop - PIG:如何为PARALLEL子句选择良好的值(value)?

Hive 结果保存为 parquet 文件

hadoop - Hadoop MapReduce中Mapper/Reducer的设置和清理方法

tcp - 网络错误(Tcp错误)

json - 配置单元 : How to explode a JSON column embedded in a CSV file?

hadoop - 如何编写查询以查找HIVE db中具有特定列名的所有表

HiveQL - 如何查找列值是数字还是不使用任何 UDF?

hadoop - 如何将CONCAT()函数的结果传递给Pig中的UDF?

unix - hive 和UNIX脚本