我正在处理案例数据 CSV 文件。我遇到了一个问题,其中名为 case_number
的列之一存在多个案例编号重复。有没有一种方法可以删除重复项而不丢失与将删除的行相关的任何信息。
换句话说,将所有信息合并到分配给 case_number
的一个单元格中。
最佳答案
您应该使用 pd.read_csv('filename.csv')
来创建 DataFrame,但对于这个简化的示例,我将仅从字典中创建一个:
import pandas as pd
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']})
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index()
输出:
x y
0 1 a, b, c, e
1 2 d, f, g
将 ', '
替换为您想要的字符串之间的任何分隔符。
关于python - Python 处理重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42638209/