python - Pandas 仅显示给定 id 的数据框中值的唯一实例

标签 python pandas dataframe

这是我正在使用的数据框。

df = pd.DataFrame({'id' : ['45', '45', '45', '45', '46', '46'],
                  'description' : ['credit score too low', 'credit score too low', 'credit score too low', 'high risk of fraud', 'address not verified', 'address not verified']})
print(df)

我正在尝试修改数据框,以便对于给定的 ID,没有重复的描述。下面的数据框是所需的输出。

newdf = pd.DataFrame({'id' : ['45', '45', '46'],
                  'description' : ['credit score too low', 'high risk of fraud', 'address not verified']})
print(newdf)

最佳答案

您可以使用 .drop_duplicates() [pandas-doc] 删除重复项。例如:

>>> df
   id           description
0  45  credit score too low
1  45  credit score too low
2  45  credit score too low
3  45    high risk of fraud
4  46  address not verified
5  46  address not verified
>>> df.drop_duplicates()
   id           description
0  45  credit score too low
3  45    high risk of fraud
4  46  address not verified

因此,您可以将 df 设置为新的数据帧,例如:

df = df<b>.drop_duplicates()</b>

关于python - Pandas 仅显示给定 id 的数据框中值的唯一实例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57239426/

相关文章:

python - python中的SVM(支持向量机)总是给出相同的预测

python - 将数据框中的非数字转换为 NaN (numpy)?

python - 为什么 Pandas 数据框中按日期分组如此慢?

python - Pyspark HiveContext.table 和 HiveContext.sql 性能

python - 主循环中的 PyQt 调试

python - 使用 sounddevice 模块从命令行播放声音样本时延迟太高

python - Pandas 中的自定义时间序列重采样

如果零值出现在另一列上,则删除带有因子的行

python - 为什么minimum_scalar没有正确最小化?

python - 比较 Pandas Dataframe 行和删除具有重叠日期的行