我希望删除组“内”的重复项。我怎样才能以最有效的方式做到这一点?
我尝试过仅按 ID 对数据进行分组,但由于公司可以在不同年份筹集相同类型的投资轮次,因此这种方法会导致我得到错误的结果。
我有这样的数据:
+----+-----------+-----------+---------------+
| ID | Type | seed_year | series_a_year |
+----+-----------+-----------+---------------+
| 1 | seed | 2014 | 0 |
| 2 | seed | 2014 | 0 |
| 2 | seed | 2015 | 0 |
| 3 | seed | 2012 | 0 |
| 3 | series_a | 0 | 2014 |
| 3 | series_a | 0 | 2015 |
+----+-----------+-----------+---------------+
我想要的输出是:
+----+----------+-----------+---------------+
| ID | Type | seed_year | series_a_year |
+----+----------+-----------+---------------+
| 1 | seed | 2014 | 0 |
| 2 | seed | 2014 | 0 |
| 3 | seed | 2012 | 0 |
| 3 | series_a | 0 | 2014 |
+----+----------+-----------+---------------+
我想保留第一轮(最旧的)融资。
最佳答案
您可以使用 .drop_duplicates()
的“subset”参数:
df.drop_duplicates(subset=['ID', 'Type'], keep='first')
关于python - 如何删除 Pandas 组中的重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55972389/