在 Pandas
中,我们可以使用 dataframe.drop_duplicates()
删除重复项,它默认保留重复数据的第一行。如果 keep_last = True
,则保留最后一行。
我们如何使用 pandas drop_duplicate
保留任何随机行并删除重复行?
最佳答案
完成此任务的 Pythonic 方式:
df = df.sample(frac=1).drop_duplicates()
在这里,我们采用的样本等于数据帧的完整大小,没有放回。这有效地打乱了所有行的位置,允许我们删除重复项并保留第一行,之前是随机的。
如果你需要保持索引的顺序,你也可以重置它:
df = df.sample(frac=1).drop_duplicates().reset_index(drop=True)
关于python - 随机删除重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22864878/