对于连续数据,可以使用RDD.map(x => x.scores(0)).stats()
计算汇总统计信息。
这样的结果org.apache.spark.util.StatCounter = (count: 4498289, mean: 0.028091, stdev: 2.332627, max: 22.713133, min: -36.627933)
如何在Spark中获得分类数据的相似结果? (不同值的数量,最高值的单独数量等)
最佳答案
经过进一步研究,我发现了如何获得分类数据的直方图。
如果其他人有兴趣...val countColumn = parsedLines.map(_.ColumnName).countByValue()
countColumn.toSeq.sortBy(_._2).reverse.foreach(println)
这将打印列的每个不同值及其计数。
关于hadoop - Spark分类数据摘要统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29500195/