hadoop - 为了加快配置单元进程，如何使用 tez 调整映射器和缩减器数量

我尝试使用 tez 处理大数据(约 150GB)的过程(句子的单词标签)，但问题是它花了很多时间(1 周或更多)，然后

我试图指定映射器的数量。虽然我设置了 mapred.map.tasks =2000，但我无法阻止 mapper 被设置为 150 左右，所以我不能做我想做的事。

我在 oozie 工作流文件中指定映射值并使用 tez。

如何指定映射器的数量？

最后想加快进程，不用tez也可以。

另外，我想用reducer统计标记的句子，也很花时间。

而且，我还想知道如何调整内存大小以使用每个映射器和缩减器进程。

最佳答案

In order to manually set the number of mappers in a Hive query when TEZ is the execution engine the configuration tez.grouping.split-count can be used...

... set tez.grouping.split-count=4 will create 4 mappers

https://community.pivotal.io/s/article/How-to-manually-set-the-number-of-mappers-in-a-TEZ-Hive-job

但是，总的来说，您应该在开始之前优化存储格式和 Hive 分区 tuning the Tez settings .不要尝试在 Hive 中处理数据 STORED AS TEXT。首先将其转换为 ORC 或 Parquet。

如果 Tez 不适合您，您可以随时尝试 Spark。再加上标记句子可能是您可以在某处找到的 Spark MLlib worlflow

关于hadoop - 为了加快配置单元进程，如何使用 tez 调整映射器和缩减器数量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52013727/

hadoop - 为了加快配置单元进程，如何使用 tez 调整映射器和缩减器数量

上一篇：java - hadoop 使用类名提交作业，为什么需要 job.setJarByClass()？

下一篇：java - Windows 中的 Hadoop 错误