java - 获取每个 Mapper 或 Spark MapReduce 模型中全局的每个键的计数

标签 java python hadoop mapreduce apache-spark

我们需要获取每个键的计数(在执行之前键是未知的)，并在每个 Mapper 中动态地进行一些计算。 key 计数可以是全局的或仅在每个 Mapper 中。实现它的最佳方法是什么？在 Hadoop 中，这类似于聚合器功能。

Spark 中的累加器需要在 Mapper 作业运行之前定义。但是我们不知道那里有什么和多少个键。

最佳答案

您可以使用 pairRDD.countByKey() 函数根据键对行进行计数。

关于java - 获取每个 Mapper 或 Spark MapReduce 模型中全局的每个键的计数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29358494/

上一篇：hadoop - hadoop log4j无法正常工作

下一篇：java - 无法创建代理提供程序类org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

相关文章：

python - 没有与 Django Auth Views 的反向匹配

java - 配置单元查询返回非零代码

hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群？

Python 使用 ctypes 自定义结构调用 C 共享库

python - 如何使用 sqlalchemy 在 sqlite 中使用正则表达式函数？

java - 实际参数 String 无法通过方法调用转换转换为 int - 如何修复

java - 在android中获取用户的文本

hadoop - 尝试使用Pig脚本将数据加载到hbase中面临问题

java - 如何在 Java 上列出倒三角形上的数字

javascript - AngularJs 嵌套状态与 ui 路由器不工作