所以我遇到的问题是我有这个数据集:
它显示企业在特定日期开展业务。我想要实现的是报告哪一天添加了哪些业务。也许我正在寻找一些答案:
我成功地使用这个sql整理了所有记录:
select [Date]
,Mnemonic
,securityDesc
,sum(cast(TradedVolume as money)) as TradedVolumSum
FROM SomeTable
group by [Date],Mnemonic,securityDesc
但我不知道如何将每天的记录与另一天的记录进行比较,并将第二天不存在的记录导出到另一个表。我厌倦了分区语句上的 sql,但这使它变得复杂。我可以使用 sql 或 Pyspark sql python 组合。
你能告诉我如何解决这个问题吗?
最佳答案
下面是您问题的数据框操作,您可能需要稍微调整一下,因为我没有示例数据,通过查看您的数据编写代码,请告诉我这是否解决了您的问题:
import pyspark.sql.functions as F
from pyspark.sql import Window
some_win = Window.partitionBy("securityDesc").orderBy(F.col("[date]").asc())
some_table.withColumn(
"buisness_added_day",
F.first(F.col("id")).over(some_win)
).select(
"buisness_added_day",
"securityDesc",
"TradedVolumSum",
"Mnemonic"
).distinct().orderBy("buisness_added_day").show()
关于python - PySpark sql 比较每天的记录并报告差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52140278/