是否有任何内置转换可以对以下 rdd 的 Int 求和
org.apache.spark.rdd.RDD[(String, (Int, Int))]
string 是键,Int 数组是 Value,我需要的是将所有 Int 的总和作为
RDD[(String, Int)]
.我试过 groupByKey 没有成功......此外 - 结果集必须再次是 rdd。
提前致谢
最佳答案
如果目标是对值的元素 (Int, Int) 求和,那么 map 转换可以实现:
val arr = Array(("A", (1, 1)), ("B", (2, 2)), ("C", (3, 3))
val rdd = sc.parallelize(arr)
val result = rdd.map{ case (a, (b, c)) => (a, b + c) }
// result.collect = Array((A,2), (B,4), (C,6))
相反,如果值类型是数组,则可以使用 Array.sum。
val rdd = sc.parallelize(Array(("A", Array(1, 1)),
("B", Array(2, 2)),
("C", Array(3, 3)))
rdd.map { case (a, b) => (a, b.sum) }
编辑:
map
正如@Justin 建议的那样,转换不会保留原始分区器 mapValues
这里可能更合适:rdd.mapValues{ case (x, y) => x + y }
rdd.mapValues(_.sum)
关于apache-spark - 对 rdd int 数组执行求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29504762/