python - Python 处理重复项

我正在处理案例数据 CSV 文件。我遇到了一个问题，其中名为 case_number 的列之一存在多个案例编号重复。有没有一种方法可以删除重复项而不丢失与将删除的行相关的任何信息。

换句话说，将所有信息合并到分配给 case_number 的一个单元格中。

Here is an image of the CSV

最佳答案

您应该使用 pd.read_csv('filename.csv') 来创建 DataFrame，但对于这个简化的示例，我将仅从字典中创建一个:

import pandas as pd
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']})
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index()

输出:

   x           y
0  1  a, b, c, e
1  2     d, f, g

将 ', ' 替换为您想要的字符串之间的任何分隔符。

关于python - Python 处理重复项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42638209/

上一篇：python - 放大数据、重新调整 y 轴刻度的最有效方法

下一篇：python - Pandas:按对象迭代组

相关文章：

python Nose 和扭曲

Python - Pandas - 根据其他列中的值替换列中的字符串 - 处理子字符串

python - pandas.DataFrame.to_sql 的进度条

python - Pandas 滚动窗口百分位排名

python - 如何从另一个列字符串值中删除一个列字符串值？

python - __repr__ 可以返回数据帧吗？

python - 表解析如何在 python 中工作？除了那道漂亮的汤，还有什么简单的方法吗？

python - ValueError : Axes instance argument was not found in a figure, 同名问题没有答案

python - 最长递增子序列，算法工作错误，不知道为什么

python - "Asyncio Event Loop is Closed"获取循环时