python - 根据条目从 pandas.Dataframe 中删除行

标签 python pandas dataframe

给定一个 pandas.DataFrame:

    | Col_A | Col_B | Other_Columns
0   | A0    | B0    | …
1   | A1    | B1    | …
2   | A2    | B2    | …
3   | A3    | B3    | …
…   | …     | …     | …

我一直在尝试保留此 DataFrame 的一个子集:删除 AB 条目都是唯一的行(例如如果在第 6 行,值 A6B6 都没有出现在 DataFrame 的其他任何地方,我们要删除这一行)

我不想删除重复项。此外,我不想获得唯一值(如果我理解得很好,这类似于将列表转换为集合,对吗?),而是只出现一次的值。

此时,这就是我得到的:

counts = df[['Col_A','Col_B']].stack().value_counts(ascending=True)
myList = [0] + [item for item in counts[counts.values == 1].index]
toRemove = []
for i in df.index:
    if (df.at[i,'Col_A'] and df.at[i, 'Col_B']) in myList:
        toRemove.append(i)
final_df = df[~df.index.isin(toRemove)]

这不是很有效(数据框相当大 >10M 行)必须有一个更 pythonic 的策略,涉及 pandas 的内置功能,对吧? 另外,我不太确定第一行是否正确:通过堆叠两列,我是否确保对两列的条目执行计数?

如果您需要更多信息或者我的文字对您来说不清楚,请不要犹豫。

非常感谢您抽出时间:-)

最佳答案

像这样的事情怎么样:

In [75]: df = pd.DataFrame(np.random.randint(0,100,size=(10, 3)), columns=list('abc'))

In [76]: df
Out[76]:
    a   b   c
0  37  85  17
1  19   0  11
2  51  20  65
3  59  92  65
4  48  15  91
5  21  50  44
6  61  94  49
7  51   6  88
8  89  72  40
9   5  51  79

In [77]: c = df[['a','b']].stack().value_counts()

In [78]: c
Out[78]:
51    3
94    1
15    1
37    1
6     1
72    1
50    1
21    1
5     1
48    1
61    1
19    1
20    1
85    1
89    1
59    1
92    1
0     1
dtype: int64

In [79]: c[c>1]
Out[79]:
51    3
dtype: int64

In [80]: vals = c[c>1].index

In [81]: df[(df['a'].isin(vals)) | (df['b'].isin(vals))]
Out[81]:
    a   b   c
2  51  20  65
7  51   6  88
9   5  51  79

更新:

当您执行 if (df.at[i,'Col_A'] and df.at[i, 'Col_B']) in myList: 时,请检查您是否检查得不完全正确。 ..

这是正在发生的事情:

In [90]: df.at[0, 'a'], df.at[0, 'b']
Out[90]: (37, 85)

In [91]: (df.at[0, 'a'] and df.at[0, 'b'])
Out[91]: 85

所以你不能这样检查

关于python - 根据条目从 pandas.Dataframe 中删除行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37116485/

相关文章:

python - 我想根据每个 deviceId 过滤行并对这些行执行一些操作。 ( Pandas )

python - 如何将元组值设置为 Pandas 数据框?

python - 如何选择数据框中列的每个类别?

python - 使用子进程时如何限制程序的执行时间?

python - 如何将钱(以便士计)转换为单独的硬币?

python - 如何生成一些全为奇数的随机数

r - 对于数据框中的每一行,根据日期范围创建多行

python - 为什么 python 和我的网络浏览器对同一链接显示不同的代码?

python - 在 pandas 数据框中将元素设置为 None

python - 如何根据不同列中的值将一列添加到 pandas 数据框?