python - 在 Pandas 中如何使用 drop_duplicates 有一个异常(exception)？

标签 python pandas dataframe exception drop-duplicates

在 python 3 和 pandas 中，我需要通过在列中重复值来消除数据框中的重复行。为此，我使用了:

consolidado = df_processos.drop_duplicates(['numero_unico'], keep='last')

“numero_unico”列具有字符串格式的代码，例如 0029126-45.2019.1.00.0000、0026497-98.2019.1.00.0000、0027274-83.2019.1.00.0000...

所以上面的命令只保留找到的最后一个字符串代码出现

除了一个异常(exception)，有人知道如何使用 drop_duplicates 吗？

但列内容并不总是字符串代码。在几行中出现内容“Sem número único”

而且我想保留存在此异常的所有行。但是使用上面的命令生成的数据框只保留“Sem número único”的最后一次出现

最佳答案

我对 OP 的评论示例，

df = pandas.DataFrame({
    'a': ['snu', 'snu', '002', '002', '003', '003'], 
    'b': [1, 2, 2, 1, 5, 6]
})
df_dedupe = pandas.concat([ 
    df[df['a']=='snu'], 
    df[df['a']!='snu'].drop_duplicates(['a'], keep='last') 
])

关于python - 在 Pandas 中如何使用 drop_duplicates 有一个异常(exception)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58310836/

上一篇：python - 给定索引 ndarray 和标志 ndarray 是否有任何 numpy/torch 样式来设置值？

下一篇：python - 使用 np.where 创建一个包含三个条件的新列

相关文章：

python - 降低 XML 文档中值的精度

python - keras utils 标准化的目的是什么？

python - 如何使正则表达式忽略 python 中的新行？

python - Pandas Dataframe，如何在 Python 中将列分组在一起

python - 如何在 Pandas 中创建新列，并有条件重复另一列的值？

python - 如何将机器学习 (Tensorflow) 预测导出到 csv 文件？

python - Pyspark 数据帧过滤器 OR 条件

python - npartitions 在 Dask 数据帧中的作用是什么？

Python Pandas sizeof 倍

Python unittest模拟类和类方法