我正在运行一个相当大的 MRJob 作业(1,755,638 个键),并且这些键正在按排序顺序写入 reducer 。即使我指定 Hadoop 应使用哈希分区器,也会发生这种情况:
class SubClass(MRJob):
PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartitioner"
...
当我不要求对键进行排序时,我不明白为什么要对键进行排序。
最佳答案
HashPartitioner当您未显式指定任何分区程序时,默认情况下使用。
关于sorting - MRJob 为什么要对我的 key 进行排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42078886/