我有一个 dataframe在“标签”列中有一些用逗号分隔的重复标签,有没有办法从系列中删除重复的字符串。我希望 400 中的输出只有 Museum、Drinking、Shopping。
我不能用逗号拆分并删除它们,因为系列中有一些标签具有相似的词,例如:[Museum, Art Museum, Shopping] 所以拆分和删除多个博物馆字符串会影响唯一的 '艺术博物馆的字符串。
最佳答案
在使用 str.strip()
删除前导/尾随空格后,您可以用逗号分隔并转换为 set()
,它会删除重复项。然后,您可以将其df.apply()
添加到您的专栏中。
df['Tags']=df['Tags'].apply(lambda x: ', '.join(set([y.strip() for y in x.split(',')])))
关于python - Pandas 有没有办法从系列中删除重复项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56466917/