scala - Apache Spark : Get number of records per partition

标签 scala apache-spark hadoop apache-spark-sql partitioning

我想检查一下我们如何获取有关每个分区的信息,例如总号。以yarn集群部署方式提交Spark作业时,驱动端各分区的记录数,以便在控制台进行日志或打印。

最佳答案

我会使用内置函数。它应该尽可能高效:

import org.apache.spark.sql.functions.spark_partition_id

df.groupBy(spark_partition_id).count

关于scala - Apache Spark : Get number of records per partition,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46032320/

相关文章:

scala - 如何从scala中的RDD中获取最早的时间戳日期

shell - 如何在Hive中声明变量时调用变量中的查询?

java - 在当前应用程序上使用hadoop

hadoop - Storm bolt 不保证按收到的顺序处理记录?

scala - 从 SBT 运行控制台时出现错误 "Couldn' t 检索源模块 : org. scala-sbt :compiler-interface:0. 13.13:component"

scala - 基于两列的spark join操作

python - Spark统计函数Python

java - Spark DStream 的 foreachDD 函数中 RDD 的并发转换

java - 如何将日期时间字符串转换为 "yyyy-MM-dd' T'HH :mm:ss. SSSSSSSSSZ"

scala - java.util.Iterator到Scala列表?