java - 从 javaPairRDD 中获取最高键

标签 java apache-spark key-value rdd

我有一个名为“rdd”的javaPairRDD,它的元组定义为:

 <Integer,String[]> 

我想使用 max() 函数提取最高的 key ,但它需要一个比较器作为参数,请给我一个如何做到这一点的示例!!!

example:

  rdd={(22,[ff,dd])(8,[hh,jj])(6,[rr,tt]).....} 

应用 rdd.max(....) 后,它应该给我:

 int max_key=22;

请帮帮我...请使用java

最佳答案

您的方法不起作用,因为元组没有固有的顺序。

你想要做的是获得最多的 key 。最简单的方法是提取 key ,然后像这样获取最大值

keyRdd = rdd.keys()
max_key = keyRdd.max()

注意:不是 javaSpark 用户,因此语法可能有点偏差。

关于java - 从 javaPairRDD 中获取最高键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38533353/

相关文章:

java - 在 Java 中使用 FUSE 库;尝试复制 hello.c 示例

scala - 使用具有常量值的 var 在 Spark DataFrame 中创建新列

python - 使用Python操作key-value分组的txt文件展示

apache-spark - 我有一个很大的 hql 查询,我正在使用 pyspark sql 调用它。但是我收到错误,例如 Bad connect ack with firstBadLink error

scala - 如何在 Spark Scala 中将 org.apache.spark.sql.ColumnName 转换为字符串、十进制类型?

dictionary - 如果满足条件,则从字典中删除项目

javascript - js 字典,键存储在变量中

java - 使用 Spring Boot 和 WebSphere 8.5.5 进行远程 EJB 查找

java - 将 Egit 和 GitLab 用于多个项目

java - 如何将用户输入添加到java中的并行数组?