join - 如何删除一个 RDD 中其键不在另一个 RDD 中的行?

标签 join apache-spark rdd

假设我有一个 PairRDD,学生(id,姓名)。我只想保留另一个 RDD activeStudents (id) 中 id 所在的行。

我的解决方案是从 activeStudents (id, id) 创建一个 PairDD,然后与学生进行连接。

有更优雅的方法吗?

最佳答案

这是一个非常好的开始解决方案。如果活跃学生足够小,您可以将 id 收集为 map ,然后使用存在的 id 进行过滤(这可以避免进行随机播放)。

关于join - 如何删除一个 RDD 中其键不在另一个 RDD 中的行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30628723/

相关文章:

mysql - 数据库设计,使一个表指向多个和某种递归指针

scala - DataFrame 分解 JSON 对象列表

apache-spark - Spark RDD : partitioning according to text file format

python - 在 Spark 中将简单的单行字符串转换为 RDD

sql - 根据第三个表中定义的关系连接两个表

php - 关于连接两个mysql表的问题

join - 如何在 Apache Spark SQL 中执行更新

python - 在 spark 上使用 python lime 作为 udf

mongodb - 使用 Apache Spark 更新/替换 Mongo 文档

ruby-on-rails - 如何将 JOIN 信息添加到 rails seeds.rb 文件中?