java - 使用 Apache Spark/Spark SQL 连接文件

标签 java apache-spark apache-spark-sql

我正在尝试使用 Apache Spark 根据某些公共(public)字段比较两个不同的文件,并从两个文件中获取值并将其写入作为输出文件。

我使用 Spark SQL 来连接两个文件(将 RDD 存储为表之后)。

这是正确的方法吗?

我们可以在没有 Apache SQL 的情况下比较/连接文件吗?

请就此向我提出建议。

最佳答案

尝试在数据集的两个数据帧之间进行内部联接以获取匹配的记录。

关于java - 使用 Apache Spark/Spark SQL 连接文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30973606/

相关文章:

java - 如何使用 Struts 2 确定页面生成时间?

python - PySpark 作业在加载多个文件时失败并且缺少一个

java - 日期和时区(javascript、java、struts)

java - Spring Boot 应用程序由于 1 个 bean 之间的循环依赖而无法启动

apache-spark - 如何找到哪个分区倾斜(在连接大表时)?

apache-spark - Spark 数据框中的别名

apache-spark - 如何通过Spark中的中间条件提高广播加入速度

python - 使用 Windows 的 PySpark 多列

postgresql - 无法将 Apache Spark-2.1.0 与 Hive-2.1.1 元存储连接起来

java - REST - 应用层还是服务层?