hadoop - Spark分类数据摘要统计

标签 hadoop apache-spark

对于连续数据，可以使用RDD.map(x => x.scores(0)).stats()计算汇总统计信息。

这样的结果org.apache.spark.util.StatCounter = (count: 4498289, mean: 0.028091, stdev: 2.332627, max: 22.713133, min: -36.627933)
如何在Spark中获得分类数据的相似结果？ (不同值的数量，最高值的单独数量等)

最佳答案

经过进一步研究，我发现了如何获得分类数据的直方图。
如果其他人有兴趣...
val countColumn = parsedLines.map(_.ColumnName).countByValue() countColumn.toSeq.sortBy(_._2).reverse.foreach(println)
这将打印列的每个不同值及其计数。

关于hadoop - Spark分类数据摘要统计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29500195/

上一篇：docker - Docker cp需要两个参数

下一篇：docker - 如何为正在运行的Docker容器提供Internet访问？

mongodb - hadoop mongodb 连接器 - 输出数据不是 mongodb 而是 hdfs

c# - Hadoop/Spark 上的 .NET 场景模拟(DAG 作业)的分布式计算

scala - 将 Logback 中的应用程序日志与 log4j 中的 Spark 日志分开

apache-spark - 如果文件夹为空，如何正确读取据称包含来自 Spark 的 Parquet 文件的文件夹

rest - 通过 rest api 运行 MapReduce 作业

java - 运行子错误 : java. lang.OutOfMemoryError: Java 堆空间

performance - 使用 Hive 日期函数而不是硬编码日期字符串时，Hive 查询性能很慢？

python - 通过 Spark 1.6 Dataframe 上的其他字段计算每个组的不同元素

scala - 如何在 Scala 中同时使用 gcs-connector 和 google-cloud-storage