scala - 在Spark中获取已处理数据帧记录计数的最快方法

标签 scala hadoop apache-spark dataframe

我目前正在开发一个Spark应用程序，该应用程序使用数据框来计算并聚集来自配置单元表的特定列。

除了在count()中使用dataframes/rdd函数外。是否有一种更优化的方法来获取处理的记录数或数据帧的记录数？

我只需要知道是否需要重写某个特定功能即可。

任何答复将不胜感激。我目前正在使用Apache Spark 1.6。

谢谢。

最佳答案

Aside from using count() function in dataframes/rdd, is there a more optimal approach to get the number of records processed or number of count of records of a dataframe?

不。由于RDD可能具有任意复杂的执行计划，涉及JDBC表查询，文件扫描等，因此没有先验的方法可以确定其大小。

关于scala - 在Spark中获取已处理数据帧记录计数的最快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43838542/

上一篇：.net - 在Docker文件中安装SQL Express

下一篇：docker - 为什么这个docker-compose yml文件不执行该dockerfile中详细说明的命令？

相关文章：

scala - AnyVal.types 有什么用？

sql - 在选择中具有多列的配置单元查询并按一列分组

hadoop - 小于 hadoop block 大小 : spark + machine learning 的文件怎么办

date - 由于时间戳记长度，从Spark到Elasticsearch写入日期时出错

scala - 我如何习惯从Scala/Lift中处理空检查？

scala - 使用 Scala 中 for 循环的值填充列表

java - 是否有理由使用 Scala 的 StringLike.replaceAllLiterally 而不是 Java 的 String.replace？

hadoop - 无法格式化Cantos java.lang.Internal Error中的名称节点

scala - Spark : Dataframe Serialization

csv - Spark : spark-csv takes too long