我在整个 pandas 数据帧的 for 循环中使用 if 语句,但处理时间太长。有没有办法在不使用 for 循环的情况下执行此操作?
for i in data.index:
if data['qt_CNAE'][i] > 20:
data['CNAEuse'][i]=data['CNAE'][i]
data['CNAEuse_Cres'][i]=data['Crescimento_CNAE'][i]
最佳答案
我认为需要双 numpy.where
:
mask = data['qt_CNAE'] > 20
data['CNAEuse']= np.where(mask, data['CNAE'], data['CNAEuse'])
data['CNAEuse_Cres']=np.where(mask, data['Crescimento_CNAE'], data['CNAEuse_Cres'])
或者更好地使用numpy广播
:
mask = data['qt_CNAE'] > 20
df[['CNAEuse','CNAEuse_Cres']] =(np.where(mask[:, None],
df[['CNAE','Crescimento_CNAE']],
df[['CNAEuse','CNAEuse_Cres']]))
示例:
df = pd.DataFrame({'A':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3],
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],
'F':list('aaabbb')})
print (df)
A B C D E F
0 a 4 7 1 5 a
1 b 5 8 3 3 a
2 c 4 9 5 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
mask = df.F == 'a'
df[['B','D']] = np.where(mask[:, None], df[['C','E']], df[['B','D']])
print (df)
A B C D E F
0 a 7 7 5 5 a
1 b 8 8 3 3 a
2 c 9 9 6 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
关于python - 整个数据帧中 FOR 循环中的 IF 语句 : performance improvement,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49476076/