python - pyspark:合并(外连接)两个数据框

标签 python apache-spark pyspark spark-dataframe

我有以下两个数据框:

DF1:

    Id | field_A | field_B | field_C | field_D
     1 |   cat   |  12     |   black | 11
     2 |   dog   | 128     |   white | 19
     3 |   dog   |  35     |  yellow | 20
     4 |   dog   |  21     |   brown |  4
     5 |  bird   |  10     |    blue |  7
     6 |   cow   |  99     |   brown | 34

DF2:

    Id | field_B | field_C | field_D | field_E
     3 |  35     |  yellow | 20      |   123   
     5 |  10     |    blue |  7      |   454   
     6 |  99     |   brown | 34      |   398   

我希望得到 new_DF 作为

    Id | field_A | field_B | field_C | field_D | field_E
     1 |   cat   |  12     |   black | 11      |
     2 |   dog   | 128     |   white | 19      |
     3 |   dog   |  35     |  yellow | 20      |  123
     4 |   dog   |  21     |   brown |  4      |  
     5 |  bird   |  10     |    blue |  7      |  454
     6 |   cow   |  99     |   brown | 34      |  398

这可以通过数据框操作来实现吗?谢谢!

最佳答案

试试这个:

new_df = df1.join(df2, on=['field_B', 'field_C', 'field_D'], how='left_outer')

关于python - pyspark:合并(外连接)两个数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38063657/

相关文章:

python - 如何从 Apache Spark (pyspark) 的数据集中获取某些列?

python - AttributeError:模块 Django.contrib.auth.views 没有属性

Python:在 while 循环中迭代 csv

python - Spark 在 Python 中使用 Map Reduce 分析大型 mbox 邮箱文件

java - 蒙戈 Spark 连接器: MongoTypeConversionException Cannot cast DATE_TIME into a NullType

python - 具有多个参数的用户定义函数返回 NULL 值

python - 在 Python 中将整数列表解释为 float

python - 如何使用 python 和 pandas 导入 Excel 文件并搜索特定记录?

apache-spark - Spark 是否会优化 pyspark 中相同但独立的 DAG?

sql - pyspark中的DataFilter是什么?