我想对每个键的值列表进行分组,并且正在执行以下操作:
sc.parallelize(Array(("red", "zero"), ("yellow", "one"), ("red", "two"))).groupByKey().collect.foreach(println)
(red,CompactBuffer(zero, two))
(yellow,CompactBuffer(one))
但我注意到 Databricks 的一篇博客文章,建议不要对大型数据集使用 groupByKey。
有没有办法使用reduceByKey达到相同的结果?
我尝试过这个,但它连接了所有值。顺便说一句,就我而言,键和值都是字符串类型。
sc.parallelize(Array(("red", "zero"), ("yellow", "one"), ("red", "two"))).reduceByKey(_ ++ _).collect.foreach(println)
(red,zerotwo)
(yellow,one)
最佳答案
使用aggregateByKey
:
sc.parallelize(Array(("red", "zero"), ("yellow", "one"), ("red", "two")))
.aggregateByKey(ListBuffer.empty[String])(
(numList, num) => {numList += num; numList},
(numList1, numList2) => {numList1.appendAll(numList2); numList1})
.mapValues(_.toList)
.collect()
scala> Array[(String, List[String])] = Array((yellow,List(one)), (red,List(zero, two)))
参见this answer有关aggregateByKey
的详细信息,this link了解使用可变数据集 ListBuffer
背后的基本原理。
编辑:
有没有办法使用reduceByKey达到相同的结果?
上面的方法实际上性能较差,详情请参阅@zero323的评论。
关于scala - 使用ReduceByKey 对值列表进行分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37580303/