我是 Pandas 新手。 为了简化,我有一个包含两列的数据框:product_id 和 rating。每个条目都是对给定产品的新评论。 现在我想要一个新的数据框,其中删除了与收到少于 20 条评论的产品相对应的行(即在原始数据框中出现少于 20 次)。 我可以通过以下方式计算出现的次数:
a = data.groupby('product_id').count()
b = a.loc[a['rating']>20]
但这给了我一个一维数据框。显示时,每个product_id都有其计数,但我无法访问实际的product_id以使用它们来过滤原始表。例如,
b.values
返回一维计数数组,但不返回product_ids。
最佳答案
您想要filter
:
a = data.groupby('product_id').filter(lambda x: len(x) > 20)
关于python - Pandas 掉落稀有元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33439966/