python - 随机删除重复项

在 Pandas 中，我们可以使用 dataframe.drop_duplicates() 删除重复项，它默认保留重复数据的第一行。如果 keep_last = True，则保留最后一行。我们如何使用 pandas drop_duplicate 保留任何随机行并删除重复行？

最佳答案

完成此任务的 Pythonic 方式:

df = df.sample(frac=1).drop_duplicates()

在这里，我们采用的样本等于数据帧的完整大小，没有放回。这有效地打乱了所有行的位置，允许我们删除重复项并保留第一行，之前是随机的。

如果你需要保持索引的顺序，你也可以重置它:

df = df.sample(frac=1).drop_duplicates().reset_index(drop=True)

关于python - 随机删除重复项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22864878/

相关文章：

python - 我可以在 Django 的不同文件中划分模型吗