dataframe - 根据基于另一个数据框的值在 pyspark 数据框中创建一列

标签 dataframe pyspark google-cloud-dataproc

我有两个 pyspark 数据框

df1:

person_id   Name  serialNo  Maritalstatus  Location_name

 01         abc      10        M              America    
 02         xyz      13        S              London    
 03         def      14        M              Europe    
 04         qwe      15        M              Australia
 05         asd      16        M              Europe
 06         fgh      17        M              London
 07         aka      18        M              Australia
 08         fgi      19        M              London
 09         aba      20        M              Australia

df2:

Code   Location_Name    Location_Id

111        Australia          AUS    
112        America            USA    
123        London             UK    
124        Europe             EU

我想在 df1 中添加一个 Location_Id 列,从 df2 中获取匹配的 ID,如下所示:

person_id   Name  serialNo  Maritalstatus  Location_name   Location_Id

 01         abc      10        M              America        USA
 02         xyz      13        S              London         UK 
 03         def      14        M              Europe         EU
 04         qwe      15        M              Australia      AUS
 05         asd      16        M              Europe         EU
 06         fgh      17        M              London         UK
 07         aka      18        M              Australia      AUS
 08         fgi      19        M              London         UK
 09         aba      20        M              Australia      AUS

我怎样才能做到这一点?

最佳答案

只需加入 Location_name

df1.join(df2, on='Location_name')

关于dataframe - 根据基于另一个数据框的值在 pyspark 数据框中创建一列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67819734/

相关文章:

apache-spark - 与 SparkNLP 的句子相似性仅适用于带有一个句子的 Google Dataproc,当提供多个句子时失败

hadoop - 尝试在 Dataproc 上运行 Gobblin 时出现 NoSuchMethodError

r - R中根据多个条件计算字符出现次数

python - 根据值的条件对数据框中的列重新排序

python - 在databricks初始化脚本中定义环境变量

apache-spark - Pyspark 如何从 word2vec 词嵌入计算 Doc2Vec?

apache-spark - 如何传递密码以激发 EMR

postgresql - Hadoop上的Sqoop:NoSuchMethodError:com.google.common.base.Stopwatch.createStarted()

pandas - 如何识别数据帧合并期间内部联接中没有的内容

dataframe - 将 DataFrame 的集合组合成一个大的 DataFrame