假设我有一个 PairRDD,学生(id,姓名)。我只想保留另一个 RDD activeStudents (id) 中 id 所在的行。
我的解决方案是从 activeStudents (id, id) 创建一个 PairDD,然后与学生进行连接。
有更优雅的方法吗?
最佳答案
这是一个非常好的开始解决方案。如果活跃学生足够小,您可以将 id 收集为 map ,然后使用存在的 id 进行过滤(这可以避免进行随机播放)。
关于join - 如何删除一个 RDD 中其键不在另一个 RDD 中的行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30628723/