scala - 如何加入数据框(来自数据集的集合)?

标签 scala apache-spark apache-spark-sql

我正在搜索并找出加入 n Spark 数据帧的最佳方式。

示例 List(df1,df2,df3,dfN),其中所有 df 都有一个我可以加入的日期。

递归?

最佳答案

像这样:

List(df1,df2,df3,dfN).reduce((a, b) => a.join(b, joinCondition))

关于scala - 如何加入数据框(来自数据集的集合)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40603989/

相关文章:

scala - 为 scala-logging 设置日志级别

apache-spark - 使用 StandardScaler 时的 SparseVector 与 DenseVector

pyspark - 使用 QuantileDiscretizer 在 pyspark 中的百分位数排名

scala - Spark DataFrame groupBy

scala - 删除给定列表的给定数量的正项

scala - 为什么将Scala for循环(和内部)NumericRange限制为Int大小,以及如何详细说明功能?

scala - 在 Scala 项目中使用 sbt 程序集时在 jar 中包含 Hyperic Sigar 库

java - Spark : java. lang.NoClassDefFoundError: com/mongodb/hadoop/MongoInputFormat

java - 如何在 Spark 中使用 RowReaderFactory

scala - 在 scala 中的 Dataframe Join 中使用字符串函数