我们需要获取每个键的计数(在执行之前键是未知的),并在每个 Mapper 中动态地进行一些计算。 key 计数可以是全局的或仅在每个 Mapper 中。实现它的最佳方法是什么?在 Hadoop 中,这类似于聚合器功能。
Spark 中的累加器需要在 Mapper 作业运行之前定义。但是我们不知道那里有什么和多少个键。
最佳答案
您可以使用 pairRDD.countByKey() 函数根据键对行进行计数。
关于java - 获取每个 Mapper 或 Spark MapReduce 模型中全局的每个键的计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29358494/