我使用 MySQL 作为我的存储引擎从 Spark SQL 中保存表。我的 table 看起来像
+-------------+----------+
| count| date|
+-------------+----------+
| 72|2017-09-08|
| 84|2017-09-08|
+-------------+----------+
我想通过使用 GROUP BY 添加计数并删除单独的行来更新表。所以我的输出应该是这样的
+-------------+----------+
| count| date|
+-------------+----------+
| 156|2017-09-08|
+-------------+----------+
这是正确的期望吗?如果可能的话,如何使用 Spark SQL 实现?
最佳答案
在将表写入 MYSQL
之前,在 spark dataframe
/dataset
中应用以下逻辑/p>
import org.apache.spark.sql.functions._
df.groupBy("date").agg(sum("count").as("count"))
并将转换后的dataframe
写入MYSQL
。
关于mysql - 通过对现有行执行 GROUP BY 来更新表 SPARK - SQL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46137491/