scala - Apache Spark : Get number of records per partition

标签 scala apache-spark hadoop apache-spark-sql partitioning

我想检查一下我们如何获取有关每个分区的信息，例如总号。以yarn集群部署方式提交Spark作业时，驱动端各分区的记录数，以便在控制台进行日志或打印。

最佳答案

我会使用内置函数。它应该尽可能高效:

import org.apache.spark.sql.functions.spark_partition_id

df.groupBy(spark_partition_id).count

关于scala - Apache Spark : Get number of records per partition，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46032320/

上一篇：json - 在配置单元脚本中使用 json_tuple 语法时发生错误

下一篇：hadoop - hdfs - ls : Failed on local exception: com. google.protobuf.InvalidProtocolBufferException:

相关文章：

scala - 如何从scala中的RDD中获取最早的时间戳日期

shell - 如何在Hive中声明变量时调用变量中的查询？

java - 在当前应用程序上使用hadoop

hadoop - Storm bolt 不保证按收到的顺序处理记录？

scala - 从 SBT 运行控制台时出现错误 "Couldn' t 检索源模块 : org. scala-sbt :compiler-interface:0. 13.13:component"

scala - 基于两列的spark join操作

python - Spark统计函数Python

java - Spark DStream 的 foreachDD 函数中 RDD 的并发转换

java - 如何将日期时间字符串转换为 "yyyy-MM-dd' T'HH :mm:ss. SSSSSSSSSZ"

scala - java.util.Iterator到Scala列表？

©2024 IT工具网联系我们