df_1
列 -> |id|pym_cat|sub_status|年|月|日|
df_2
列 -> |id|loc_provinsi|loc_kabupaten|loc_kecamatan|
这是我的代码
df_join = df_1.join(df_2, df_1.id == df_2.id, "左")
错误信息
AnalysisException:“引用 'id 不明确,可能是:b.id、id。;”
最佳答案
df 的别名之一。然后,您可以通过在列前添加别名来有条件地删除列
df.join(df1.alias('df1'),how='left',on=df.id==df1.id).drop(df1.id)
关于python - 如何避免唯一键在 PySpark left join 中出现两次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74793228/