sorting - MRJob 为什么要对我的 key 进行排序?

标签 sorting hadoop mrjob

我正在运行一个相当大的 MRJob 作业(1,755,638 个键),并且这些键正在按排序顺序写入 reducer 。即使我指定 Hadoop 应使用哈希分区器,也会发生这种情况:

class SubClass(MRJob):

    PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartitioner"

...

当我不要求对键进行排序时,我不明白为什么要对键进行排序。

最佳答案

HashPartitioner当您未显式指定任何分区程序时,默认情况下使用。

关于sorting - MRJob 为什么要对我的 key 进行排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42078886/

相关文章:

iphone - 使用数字字符串对数组进行排序

hadoop - hive UDF-将StringObjectInspector转换为String

Hadoop 和 HBase 集成

python - Hadoop 集群 : Permission denied 中的 mrjob virtualenv 错误

python - 从 MrJob 访问分布式缓存

python - MRJob 的多输入

c - 将输入的整数排序为奇数和偶数数组

java - 搜索无序列表而不将其转换为数组

java - 如何在 Java 中使用 Comparator 进行排序

apache - 如何为 Namenode 高可用性配置 fencer