python - Pandas 掉落稀有元素

我是 Pandas 新手。为了简化，我有一个包含两列的数据框:product_id 和 rating。每个条目都是对给定产品的新评论。现在我想要一个新的数据框，其中删除了与收到少于 20 条评论的产品相对应的行(即在原始数据框中出现少于 20 次)。我可以通过以下方式计算出现的次数:

a = data.groupby('product_id').count()
b = a.loc[a['rating']>20]

但这给了我一个一维数据框。显示时，每个product_id都有其计数，但我无法访问实际的product_id以使用它们来过滤原始表。例如，

b.values

返回一维计数数组，但不返回product_ids。

最佳答案

您想要filter :

a = data.groupby('product_id').filter(lambda x: len(x) > 20)

关于python - Pandas 掉落稀有元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33439966/