python - Pandas 仅显示给定 id 的数据框中值的唯一实例

这是我正在使用的数据框。

df = pd.DataFrame({'id' : ['45', '45', '45', '45', '46', '46'],
                  'description' : ['credit score too low', 'credit score too low', 'credit score too low', 'high risk of fraud', 'address not verified', 'address not verified']})
print(df)

我正在尝试修改数据框，以便对于给定的 ID，没有重复的描述。下面的数据框是所需的输出。

newdf = pd.DataFrame({'id' : ['45', '45', '46'],
                  'description' : ['credit score too low', 'high risk of fraud', 'address not verified']})
print(newdf)

最佳答案

您可以使用 .drop_duplicates() [pandas-doc] 删除重复项。例如:

>>> df
   id           description
0  45  credit score too low
1  45  credit score too low
2  45  credit score too low
3  45    high risk of fraud
4  46  address not verified
5  46  address not verified
>>> df.drop_duplicates()
   id           description
0  45  credit score too low
3  45    high risk of fraud
4  46  address not verified

因此，您可以将 df 设置为新的数据帧，例如:

df = df<b>.drop_duplicates()</b>

关于python - Pandas 仅显示给定 id 的数据框中值的唯一实例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57239426/

上一篇：python - 计算其中包含 np.nan 的 pandas 数据框值的平均值的最佳方法是什么？

下一篇：python - asyncio.run_coroutine_threadsafe 的 future 永远挂起？

相关文章：

python - python中的SVM(支持向量机)总是给出相同的预测

python - 将数据框中的非数字转换为 NaN (numpy)？

python - 为什么 Pandas 数据框中按日期分组如此慢？

python - Pyspark HiveContext.table 和 HiveContext.sql 性能

python - 主循环中的 PyQt 调试

python - 使用 sounddevice 模块从命令行播放声音样本时延迟太高

python - Pandas 中的自定义时间序列重采样

如果零值出现在另一列上，则删除带有因子的行

python - 为什么minimum_scalar没有正确最小化？

python - 比较 Pandas Dataframe 行和删除具有重叠日期的行