我目前正在开发一个Spark应用程序,该应用程序使用数据框来计算并聚集来自配置单元表的特定列。
除了在count()
中使用dataframes/rdd
函数外。是否有一种更优化的方法来获取处理的记录数或数据帧的记录数?
我只需要知道是否需要重写某个特定功能即可。
任何答复将不胜感激。我目前正在使用Apache Spark 1.6。
谢谢。
最佳答案
Aside from using count() function in dataframes/rdd, is there a more optimal approach to get the number of records processed or number of count of records of a dataframe?
不。由于RDD可能具有任意复杂的执行计划,涉及JDBC表查询,文件扫描等,因此没有先验的方法可以确定其大小。
关于scala - 在Spark中获取已处理数据帧记录计数的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43838542/