scala - 在Spark中获取已处理数据帧记录计数的最快方法

标签 scala hadoop apache-spark dataframe

我目前正在开发一个Spark应用程序,该应用程序使用数据框来计算并聚集来自配置单元表的特定列。

除了在count()中使用dataframes/rdd函数外。是否有一种更优化的方法来获取处理的记录数或数据帧的记录数?

我只需要知道是否需要重写某个特定功能即可。

任何答复将不胜感激。我目前正在使用Apache Spark 1.6。

谢谢。

最佳答案

Aside from using count() function in dataframes/rdd, is there a more optimal approach to get the number of records processed or number of count of records of a dataframe?



不。由于RDD可能具有任意复杂的执行计划,涉及JDBC表查询,文件扫描等,因此没有先验的方法可以确定其大小。

关于scala - 在Spark中获取已处理数据帧记录计数的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43838542/

相关文章:

scala - AnyVal.types 有什么用?

sql - 在选择中具有多列的配置单元查询并按一列分组

hadoop - 小于 hadoop block 大小 : spark + machine learning 的文件怎么办

date - 由于时间戳记长度,从Spark到Elasticsearch写入日期时出错

scala - 我如何习惯从Scala/Lift中处理空检查?

scala - 使用 Scala 中 for 循环的值填充列表

java - 是否有理由使用 Scala 的 StringLike.replaceAllLiterally 而不是 Java 的 String.replace?

hadoop - 无法格式化Cantos java.lang.Internal Error中的名称节点

scala - Spark : Dataframe Serialization

csv - Spark : spark-csv takes too long