hadoop - 执行 Hive 查询时分配了多少个 Mappers 和 Reducers

标签 hadoop mapreduce hive

当执行 Hive 查询时,执行了多少个映射器/缩减器或当执行一个 Hive 查询时,如何确定将如何执行映射器和缩减器?

最佳答案

映射器的数量取决于作业客户端计算的输入分割数。

Hive 查询就像一系列 Map reduce 作业。如果您编写一个简单的查询,例如 select Count(*) from Employee,则只会执行一个 Map reduce 程序。如果你给出一个包含大量聚合和连接等的复杂查询,将执行一系列 Map Reduce 程序,这些程序使用早期 MR 阶段的输出作为下一个 MR 阶段的输入,最终结果将转储到 HDFS。

reducer 的数量可以由开发人员在 Hive Shell 中设置为 ma​​pred.reduce.tasks=x

关于hadoop - 执行 Hive 查询时分配了多少个 Mappers 和 Reducers,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29732748/

相关文章:

sql - 根据映射列中的键选择数据

hadoop - 将数据从 HDFS 复制到 Hive 中的外部表时出错

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件?

json - 创建HIVE表时出现JSON解析错误

java - Java 中的 AWS DynamoDB 和 MapReduce

hadoop - Map Reduce 已完成但 pig 作业失败

apache-spark - 具有区分大小写且未插入到配置单元表中的DataFrame

hadoop - 如何根据 pig 中列的不同值拆分关系

hadoop - 如何在 Hadoop/Spark 中重命名大量文件?

hadoop - 带 block 压缩的序列文件