我有一个数据框,在某种程度上有“重复”行。假设我有一行 A = ['name' : john, 'age' : 15, 'email' : NaN, 'school' : middle]
和一行 B = ['姓名':约翰,'年龄':15,'电子邮件':john@gmail.com,'学校':NaN]
。 A 和 B 的结果行应为 ['name' : john, 'age' : 15, 'email' : john@gmail.com, 'school' : middle]
。
到目前为止,我已经尝试在数据帧上使用 iterrows() 并更改值,但更改不会保存。 我的代码:
duplicated = df[df.duplicated(['name', 'age'], keep = False)].sort_values('name')
row_iterator = duplicated.iterrows()
_, last = row_iterator.__next__()
for k, row in row_iterator:
if row['name'] == last['name']:
for i in duplicated.columns:
if row[i] == last[i]:
continue
if pd.isna(row[i]):
row[i] = last[i]
if pd.isna(last[i]):
last[i] = row[i]
last = row
df 是我拥有所有数据的数据框的名称。然后我只将重复的行切成重复
。之后,我迭代数据框并尝试进行更改。但我所做的改变最终会丢失或者发生什么。我做错了什么?
最佳答案
我们可以通过两种方式解决您的问题:
方法 1:使用 bfill
、ffill
和 drop_duplicates
:
df = df.bfill().ffill().drop_duplicates()
name age email school
0 john 15 john@gmail.com middle
方法2:GroupBy.first
:
df = df.groupby(['name', 'age']).first().reset_index()
name age email school
0 john 15 john@gmail.com middle
关于python - 迭代数据帧时所做的更改不会保存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58961647/