python - 如何避免唯一键在 PySpark left join 中出现两次

标签 python join pyspark

df_1 列 -> |id|pym_cat|sub_status|年|月|日|

df_2 列 -> |id|loc_provinsi|loc_kabupaten|loc_kecamatan|

这是我的代码

df_join = df_1.join(df_2, df_1.id == df_2.id, "左")

错误信息

AnalysisException:“引用 'id 不明确,可能是:b.id、id。;”

最佳答案

df 的别名之一。然后,您可以通过在列前添加别名来有条件地删除列

df.join(df1.alias('df1'),how='left',on=df.id==df1.id).drop(df1.id)

关于python - 如何避免唯一键在 PySpark left join 中出现两次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74793228/

相关文章:

java - 从对象获取 JavaArray 属性

python - 将脚本转换为可执行文件,包括远程文件夹中的数据文件

python模块用密码保护现有的pdf文件

python - 移位组的滚动总和不适用于第一组条目的数据框

mysql计数为0

mysql - 在 Sequelize 中填充没有关联 id 的数据

sql - 在 PostgreSQL 中合并两个 View

python - Apache Spark - ModuleNotFoundError : No module named 'mysql'

apache-spark - 来自 Spark 安装的 Pyspark VS Pyspark python 包

python - Pyspark 将列类型从日期更改为字符串