python - Pandas 有没有办法从系列中删除重复项?

标签 python python-3.x pandas

我有一个 dataframe在“标签”列中有一些用逗号分隔的重复标签,有没有办法从系列中删除重复的字符串。我希望 400 中的输出只有 Museum、Drinking、Shopping。

我不能用逗号拆分并删除它们,因为系列中有一些标签具有相似的词,例如:[Museum, Art Museum, Shopping] 所以拆分和删除多个博物馆字符串会影响唯一的 '艺术博物馆的字符串。

Desired Output

最佳答案

在使用 str.strip() 删除前导/尾随空格后,您可以用逗号分隔并转换为 set(),它会删除重复项。然后,您可以将其df.apply() 添加到您的专栏中。

df['Tags']=df['Tags'].apply(lambda x: ', '.join(set([y.strip() for y in x.split(',')])))

关于python - Pandas 有没有办法从系列中删除重复项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56466917/

相关文章:

Python:wget 随机打印 "-1/unknown"

python - 如何用mongoengine做 "insert if not exist else update"?

python - 将分钟格式的时间列转换为 HH :MM:SS format in pandas 格式的时间

python - 使用 python 数据框,将满足条件的行数列添加到满足条件的每一行

python - Pandas 比较两个数据帧,标记匹配的内容

python - 线程的 Java 文件权限

python - libpythonX.X 中包含的符号如何链接到 numpy 扩展动态库?

python3.5 :Can't convert bytes to string implicitly

python - Pandas 值(value)错误: invalid literal for int() with base 10: ''

Python pandas 删除具有列值 "NaN"的重复行