我正在为 Spark 使用 Java 连接器,并想联合两个 DataFrame,但奇怪的是 DataFrame 类只有 unionAll?这是故意的吗?有没有办法将两个 DataFrame 联合起来而不重复?
最佳答案
Is this intentional
如果认为可以安全地假设它是故意的。其他联合运算符,如 RDD.union
和 DataSet.union
也会保留重复项。
如果你仔细想想是有道理的。虽然相当于 UNION ALL
的操作只是一个逻辑操作,不需要数据访问或网络流量,但发现不同的元素需要洗牌,因此可能非常昂贵。
is there a way to union two DataFrames without duplicates?
df1.unionAll(df2).distinct()
关于java - Spark DataFrame 类的 union() 方法在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34992182/