python - 如何删除特定列中重复ID的数据？

我有这个简单的数据框:

ID  Name    State
1   John    DC
1   John    VA
2   Smith   NE
3   Janet   CA
3   Janet   NC
3   Janet   MD

我想删除重复 ID 的 State 值，如下所示:

ID  Name    State
1   John    nan
1   John    nan
2   Smith   NE
3   Janet   nan
3   Janet   nan
3   Janet   nan

知道如何解决这个问题吗？

谢谢

最佳答案

duplicated 返回一个 bool 掩码，其中行在 subset 中定义的列上重复。 keep=False 表示我们不应将第一个或最后一个重复项视为非重复项。然后使用 loc 允许我们分配到发生重复的行。

df.loc[df.duplicated(subset=['ID'], keep=False), 'State'] = None

df

关于python - 如何删除特定列中重复ID的数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38834788/

相关文章：

python - 使用 pprint 并跳过类型名称