hadoop - 为了加快配置单元进程,如何使用 tez 调整映射器和缩减器数量

标签 hadoop hive apache-tez

我尝试使用 tez 处理大数据(约 150GB)的过程(句子的单词标签),但问题是它花了很多时间(1 周或更多),然后

我试图指定映射器的数量。 虽然我设置了 mapred.map.tasks =2000, 但我无法阻止 mapper 被设置为 150 左右, 所以我不能做我想做的事。

我在 oozie 工作流文件中指定映射值并使用 tez。

如何指定映射器的数量?

最后想加快进程,不用tez也可以。

另外,我想用reducer统计标记的句子,也很花时间。

而且,我还想知道如何调整内存大小以使用每个映射器和缩减器进程。

最佳答案

In order to manually set the number of mappers in a Hive query when TEZ is the execution engine the configuration tez.grouping.split-count can be used...

... set tez.grouping.split-count=4 will create 4 mappers

https://community.pivotal.io/s/article/How-to-manually-set-the-number-of-mappers-in-a-TEZ-Hive-job


但是,总的来说,您应该在开始之前优化存储格式和 Hive 分区 tuning the Tez settings .不要尝试在 Hive 中处理数据 STORED AS TEXT。首先将其转换为 ORC 或 Parquet。

如果 Tez 不适合您,您可以随时尝试 Spark。再加上标记句子可能是您可以在某处找到的 Spark MLlib worlflow

关于hadoop - 为了加快配置单元进程,如何使用 tez 调整映射器和缩减器数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52013727/

相关文章:

database - vertica 将 unix 纪元复制到 TIMESTAMPTZ

mysql - 将多个查询输出到单独的文件

sql - Hadoop 层次结构之谜

sql - Hive 分区性能

hadoop - Hive Tez reducer 运行速度超慢

linux - Ambari服务器无法启动

hadoop - HBase Lily Indexer高可用性

mysql与hive连接错误

java - 配置单元 : Tez how to increase AM Container memory

merge - 如何减少Hive中SQL "Alter Table/Partition Concatenate"的生成文件?