我有 2 个具有相同列数的 Spark 数据框。
DF1:
ID KEY
1 A
1 A
2 B
3 C
3 C
DF2:
ID KEY
1 A
1 A
1 A
2 B
3 C
3 C
4 D
5 E
5 E
我想比较这两个数据帧并写入 DF2 中但 DF1 中不存在的记录。
预期输出:
ID KEY
1 A
4 D
5 E
5 E
最佳答案
使用.exceptAll
函数。
`示例:
df1.show()
#+---+---+
#| ID|KEY|
#+---+---+
#| 1| A|
#| 1| A|
#| 2| B|
#| 3| c|
#| 3| c|
#+---+---+
df2.show()
#+---+---+
#| ID|KEY|
#+---+---+
#| 1| A|
#| 1| A|
#| 1| A|
#| 2| B|
#| 3| c|
#| 3| c|
#| 4| D|
#| 5| E|
#| 5| E|
#+---+---+
df2.exceptAll(df1).orderBy("ID").show()
#+---+---+
#| ID|KEY|
#+---+---+
#| 1| A|
#| 4| D|
#| 5| E|
#| 5| E|
#+---+---+
关于dataframe - Pyspark 数据帧比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61814535/