我从 hive 表中提取数据并创建一个数据框。然后进行求和和计数操作。数据大小约为3 TB。
例
val DF1=hiveContext.sql("""SELECT col1,col2,col3,col4,count(col5) AS col5,
sum(col6) AS col6 from (
SELECT col1, col2, col3, col4, col5,
sum(col6) AS col6 from <Dataframe from select fields from Table>
group by col1, col2, col3, col4, col5
)
group by col1,col2,col3,col4
""")
DF1.count
这需要很多时间。您能否建议这种情况下最好的方法?
最佳答案
可能有2种情况
关于apache-spark - Spark Sum和计数的性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49524101/