apache-spark - 有没有办法在Java Spark 2.1中进行广播联接

标签 apache-spark hadoop apache-spark-sql

我知道以下所述在scala中存在一种方法。

val joined_df = df1.join(broadcast(df2), "key")

如何在Java中进行广播联接。
我必须做sc.broadcast(df2)并在联接中使用它吗?那会被称为广播加入吗?

最佳答案

How can I do the Broadcast join in Java.



完全一样。
import static org.apache.spark.sql.functions.broadcast;

Datset<Row> joined = df1.join(broadcast(df2), "key");

关于apache-spark - 有没有办法在Java Spark 2.1中进行广播联接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53795767/

相关文章:

hadoop - 使用 cloudera quickstart 的 Flume Avro Sink Source

hadoop - 重复的YARN conf设置

apache-spark - 如何删除数据帧 Scala/sSark 中的前几行?

java - Spark - 流数据帧/数据集不支持非基于时间的窗口;

python - PySpark:如何评估机器学习推荐算法的 AUC?

macos - 如何在 Homebrew 中找到 Apache Spark 包的安装目录?

hadoop - 使用EMR中的Spark无法从S3读取Avro

apache-spark - 通过Thrift服务器访问Spark SQL RDD表

json - Spark : How to parse a Array of JSON object using Spark

apache-spark - 从云中的 Web 应用程序调用 Jupyter Notebook