python - Spark 选择 RDD 中的最高值

原始数据集为:

# (numbersofrating,title,avg_rating)
newRDD =[(3,'monster',4),(4,'minions 3D',5),....]

我想在newRDD中选择top N avg_ratings。我使用下面的代码，它有一个错误。

selectnewRDD = (newRDD.map(x, key =lambda x: x[2]).sortBy(......))

TypeError: map() takes no keyword arguments

预期的数据应该是:

# (numbersofrating,title,avg_rating)
selectnewRDD =[(4,'minions 3D',5),(3,'monster',4)....]

最佳答案

您可以将 top 或 takeOrdered 与 key 参数一起使用:

newRDD.top(2, key=lambda x: x[2])

或

newRDD.takeOrdered(2, key=lambda x: -x[2])

请注意，top 以降序获取元素，而 takeOrdered 以升序获取元素，因此 key 函数在这两种情况下是不同的。

关于python - Spark 选择 RDD 中的最高值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31882221/