在hadoop中,使用n个映射器和n个reduce或n个映射器和1个reduce之间有什么区别。
如果使用1缩减,如果我有3台计算机,则缩减阶段由哪台计算机(映射器)组成
最佳答案
映射器的数量由正在处理的数据量控制。 reducer 由开发人员或不同的系统参数控制。
要覆盖 reducer 的数量:
设置mapreduce.job.reduces =#;
或者,如果这是一项Hive作业,并且您想控制每个异径管必须完成的工作量,则可以调整某些参数,例如:
hive.exec.reducers.bytes.per.reducer。
您仍然可以使用mapreduce.job.reduces覆盖它,它只是使用每个reducer的字节数来允许您控制每个reducer处理的数量。
关于控制reducer的运行位置,除非使用Node Labels,否则您实际上无法控制它。这将意味着控制作业中所有任务的运行位置,而不仅仅是 reducer 。
关于hadoop - 在hadoop中,1减少或减少数量=映射器数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48451371/