hadoop - 何时使用 Hive 引擎 MR,何时使用 TEZ?

标签 hadoop mapreduce hive apache-tez tez

在什么条件下使用 Hive 引擎 TEZ 优于 MR?
各自的优缺点是什么?

最佳答案

TEZ 和 MR 一样,只是速度更快。查询越复杂,TEZ 的好处就越大。所以 TEZ 在工作时总是更可取。

Tez 通过为单个作业提供执行复杂 DAG(有向无环图)任务的能力,将 MapReduce 范式推广到更强大的框架。
当计划通过 map-reduce 原语实现时,不可避免地存在许多作业边界,这会为持久存储和作业启动引入读/写开销,并且可能会错过简单的优化机会,例如工作节点重用和暖缓存.

当然,在您的 TEZ 版本中还有一些错误尚未解决 - 这是您在 TEZ 上实现某些特定解决方案时可能面临的唯一问题。

虽然 MR 更成熟,但 Hive-on-MR 在 Hive 2 中已弃用,并且可能在 future 的版本中不可用。

另请阅读:

Difference between MR and Tez

还有这个:

Introducing Tez

关于hadoop - 何时使用 Hive 引擎 MR,何时使用 TEZ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38155412/

相关文章:

hadoop - 支持在HIVE ORC格式下建立索引

java - pig : Hadoop jobs Fail

java - 无法使用Java代理获取映射器或化简器堆栈跟踪

hadoop - 在 Oozie 中为 Map-Reduce 作业指定驱动程序

json - 根据与水槽匹配的关键字将关键字插入到配置单元中

hadoop - 如何在 Map/Reduce 函数中拉取数据?

hadoop - HBase : get(. ..) vs 扫描和内存表

javascript - mongodb - 不明白为什么/如何使用 map-reduce

json - 有没有办法在 AWS Athena 中展平结构字段?

sql - 配置单元查询 : Selecting column over a partition based on a median of a different column