python - Pandas 没有正确计算行数

标签 python string pandas

所以我有这个数据框:

         filename  width  height    class  xmin  ymin  xmax  ymax
0      128782.JPG    640     512    Panel    36   385   119   510
1      128782.JPG    640     512    Panel   124   388   207   510
2      128782.JPG    640     512    Panel   210   390   294   511
3      128782.JPG    640     512    Panel   294   395   380   510
4      128782.JPG    640     512    Panel   379   398   466   511
5      128782.JPG    640     512    Panel   465   402   553   510
6      128782.JPG    640     512     P+SD   552   402   638   510
7      128782.JPG    640     512     P+SD   558   264   638   404
...
...
57170     128782.JPG    640     512     P+SD    36   242   121   383
57171     128782.JPG    640     512  HS+P+SD    36    97   122   242
57172     128782.JPG    640     512     P+SD   214   106   304   250

在名为“class”的列中包含具有唯一值“Panel”、“P+SD”和“HS+P+SD”。我想计算这些值有多少行,所以我尝试了这个:

print(len(split_df[split_df["class"].str.contains('Panel')]))
print(len(split_df[split_df["class"].str.contains('HS+P+SD')]))
print(len(split_df[split_df["class"].str.contains('P+SD')]))

这给了我这个输出:

56988
0
0

这是不正确的,因为您可以根据上面提供的 DataFrame 片段清楚地看到,为什么 Panel 的所有内容都被正确计算,但其他两个“类”名称却没有被计算在内?

这是 split_df.info 的输出:

RangeIndex: 57172 entries, 0 to 57171
Data columns (total 8 columns):
filename    57172 non-null object
width       57172 non-null int64
height      57172 non-null int64
class       57172 non-null object
xmin        57172 non-null int64
ymin        57172 non-null int64
xmax        57172 non-null int64
ymax        57172 non-null int64
dtypes: int64(6), object(2)
memory usage: 3.5+ MB

我这辈子都弄不明白哪里出了问题。感谢您的帮助。

最佳答案

pd.Series.str.contains默认情况下有 regex=True。由于 + 是正则表达式中的特殊字符,因此使用 regex=Falsere.escape\ 转义:

import re
s = pd.Series(['HS+P+SD', 'AB+CD+EF'])

s.str.contains('HS+P+SD').sum()               # 0
s.str.contains('HS+P+SD', regex=False).sum()  # 1
s.str.contains(re.escape('HS+P+SD')).sum()    # 1
s.str.contains('HS\+P\+SD').sum()             # 1

I want to count how many rows there are with these values

如果这是您的核心问题并且您不希望 'P+SD' 计数包含 'HS+P+SD',请不要使用str.contains。检查是否相等并使用 value_counts关于您要计算的值:

L = ['Panel', 'HS+P+SD', 'P+SD']
counts = df.loc[df['class'].isin(L), 'class'].value_counts()

或者对于所有 计数,只需使用df['class'].value_counts()

关于python - Pandas 没有正确计算行数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54219706/

相关文章:

python - 对数据框中第二列的每个值计算一列的值

python - 在 python pandas 中,如何保存 'grid chart' ?

python - 使用列表理解

c++ - C++字符串处理中的重复字符跳过

c# - 除 "www"之外的任何字符串的正则表达式? (子域)

python - 计算每行的 "best of 4"平均值

python - 函数体内有问题

python - 我可以删除 pipenv 缓存文件夹吗?如何安全地做

php - 我需要帮助 python 代码将短信发送到存储在 mysql 数据库中的号码

python - reactor.connectTCP 可以在 twisted python 中的 reactor.run 之后发生吗?