java - Spark DataFrame 类的 union() 方法在哪里?

标签 java apache-spark dataframe apache-spark-sql

我正在为 Spark 使用 Java 连接器,并想联合两个 DataFrame,但奇怪的是 DataFrame 类只有 unionAll?这是故意的吗?有没有办法将两个 DataFrame 联合起来而不重复?

最佳答案

Is this intentional

如果认为可以安全地假设它是故意的。其他联合运算符,如 RDD.unionDataSet.union 也会保留重复项。

如果你仔细想想是有道理的。虽然相当于 UNION ALL 的操作只是一个逻辑操作,不需要数据访问或网络流量,但发现不同的元素需要洗牌,因此可能非常昂贵。

is there a way to union two DataFrames without duplicates?

df1.unionAll(df2).distinct()

关于java - Spark DataFrame 类的 union() 方法在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34992182/

相关文章:

java - 对于java泛型来说<>意味着什么?

java - 如何使用 Apache commons 在 FTP 客户端中获取提示

java - 使用java连接oracle数据库到apache Spark时出错

r - 从 data.frames 的嵌套列表中提取列名

r - 根据日期合并长格式的两个数据帧

java - Spring MVC 与 jdbc 模板

c# - 什么时候需要浅拷贝(而不是深拷贝)?

scala - Spark 中的性能调整

scala - 结构化流异常 : Append output mode not supported for streaming aggregations

python - 如何检查我的 sqlite 列是否不在我的数据框中?