hadoop - 执行 Hive 查询时分配了多少个 Mappers 和 Reducers

当执行 Hive 查询时，执行了多少个映射器/缩减器或当执行一个 Hive 查询时，如何确定将如何执行映射器和缩减器？

最佳答案

映射器的数量取决于作业客户端计算的输入分割数。

Hive 查询就像一系列 Map reduce 作业。如果您编写一个简单的查询，例如 select Count(*) from Employee，则只会执行一个 Map reduce 程序。如果你给出一个包含大量聚合和连接等的复杂查询，将执行一系列 Map Reduce 程序，这些程序使用早期 MR 阶段的输出作为下一个 MR 阶段的输入，最终结果将转储到 HDFS。

reducer 的数量可以由开发人员在 Hive Shell 中设置为 mapred.reduce.tasks=x

关于hadoop - 执行 Hive 查询时分配了多少个 Mappers 和 Reducers，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29732748/

上一篇：python - Ambari 服务器设置 : OSError: [Errno 2] No such file or directory

下一篇：hadoop - Hbase表复制

相关文章：

sql - 根据映射列中的键选择数据

hadoop - 将数据从 HDFS 复制到 Hive 中的外部表时出错

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件？

json - 创建HIVE表时出现JSON解析错误

java - Java 中的 AWS DynamoDB 和 MapReduce

hadoop - Map Reduce 已完成但 pig 作业失败

apache-spark - 具有区分大小写且未插入到配置单元表中的DataFrame

hadoop - 如何根据 pig 中列的不同值拆分关系

hadoop - 如何在 Hadoop/Spark 中重命名大量文件？

hadoop - 带 block 压缩的序列文件