hadoop - Spark分类数据摘要统计

标签 hadoop apache-spark

对于连续数据,可以使用RDD.map(x => x.scores(0)).stats()计算汇总统计信息。

这样的结果org.apache.spark.util.StatCounter = (count: 4498289, mean: 0.028091, stdev: 2.332627, max: 22.713133, min: -36.627933)
如何在Spark中获得分类数据的相似结果? (不同值的数量,最高值的单独数量等)

最佳答案

经过进一步研究,我发现了如何获得分类数据的直方图。
如果其他人有兴趣...
val countColumn = parsedLines.map(_.ColumnName).countByValue() countColumn.toSeq.sortBy(_._2).reverse.foreach(println)
这将打印列的每个不同值及其计数。

关于hadoop - Spark分类数据摘要统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29500195/

相关文章:

string - 使用 hive/impala 或其他方式通过子字符串连接大表的有效方法

mongodb - hadoop mongodb 连接器 - 输出数据不是 mongodb 而是 hdfs

c# - Hadoop/Spark 上的 .NET 场景模拟(DAG 作业)的分布式计算

scala - 将 Logback 中的应用程序日志与 log4j 中的 Spark 日志分开

apache-spark - 如果文件夹为空,如何正确读取据称包含来自 Spark 的 Parquet 文件的文件夹

rest - 通过 rest api 运行 MapReduce 作业

java - 运行子错误 : java. lang.OutOfMemoryError: Java 堆空间

performance - 使用 Hive 日期函数而不是硬编码日期字符串时,Hive 查询性能很慢?

python - 通过 Spark 1.6 Dataframe 上的其他字段计算每个组的不同元素

scala - 如何在 Scala 中同时使用 gcs-connector 和 google-cloud-storage