我正在尝试使用 Apache Spark 根据某些公共(public)字段比较两个不同的文件,并从两个文件中获取值并将其写入作为输出文件。
我使用 Spark SQL 来连接两个文件(将 RDD 存储为表之后)。
这是正确的方法吗?
我们可以在没有 Apache SQL 的情况下比较/连接
文件吗?
请就此向我提出建议。
最佳答案
尝试在数据集的两个数据帧之间进行内部联接以获取匹配的记录。
关于java - 使用 Apache Spark/Spark SQL 连接文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30973606/