hadoop - 多数据框的最佳方法是什么?

标签 hadoop apache-spark

我有 4 个数据框。 DF1 姓名、身份证、年龄

DF2 名称、ID、组

DF3 姓名,身份证,城市<​​/p>

DF4 名字,id,ctry

我如何将所有 4 个数据帧与具有相同“名称”和“ID”的 macth 连接起来。 例如 DF

姓名、身份证、年龄、组别、城市、所在地区

最佳答案

尝试:

List(df1, df2, df3, df4).reduce(_ join (_, Seq("name", "id")))

关于hadoop - 多数据框的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40483302/

相关文章:

SQL 代码错误输入不匹配 'from' 期待

hadoop - 在 Caravel 中的 Hive 表中建模数据

hadoop - 使用 Tez 执行引擎将文件系统添加到 Hive

java - 无法为 Hadoop 生成 jar 文件

apache-spark - 如何在 Spark 中生成大字数文件?

scala - 在 scala 的 spark RDD 中使用 Option 和 None

hadoop - Cassandra 聚合到 Map

maven - 使用 Maven 编译 Hadoop 需要运行 surefire 测试?

sql - 如何使用selectExpr在spark数据帧中转换结构数组?

apache-spark - 通过多个作业同时更新三角洲湖表