Python——添加考虑其他列值的新列来为新列创建值

标签 python pandas dataframe

所以我想在我的数据框中创建一个新列,我们称之为“结果”。我希望“结果”中的每个值根据其他两列中的值来确定。假设这是我的数据框:

raw_data = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}
df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])

这就是数据框的样子:

  subject_id first_name last_name
0          1       Alex  Anderson
1          2        Amy  Ackerman
2          3      Allen       Ali
3          4      Alice      Aoni
4          5     Ayoung   Atiches

所以我想创建一个新的列,其逻辑如下:

if(df_a[df_a['subject_id'] == 2] & df_a[df_a['first_name'] == 'Amy']):
  df_a['outcome'] = 2
elif(df_a[df_a['subject_id'] > 0] & df_a[df_a['first_name'] == 'Alice']):
  df_a['outcome'] = 1
else:
  df_a['outcome'] = 0

但我似乎无法让它正常工作。我希望新专栏看起来像这样:

  subject_id first_name last_name outcome
0          1       Alex  Anderson   0
1          2        Amy  Ackerman   2
2          3      Allen       Ali   0
3          4      Alice      Aoni   1
4          5     Ayoung   Atiches   0

最佳答案

使用numpy.selectnumpy.where :

#first convert `subject_id` to int
df_a['subject_id'] = df_a['subject_id'].astype(int)
m1 = (df_a['subject_id'] == 2) & (df_a['first_name'] == 'Amy')
m2 = (df_a['subject_id'] > 0) & (df_a['first_name'] == 'Alice')

df_a['outcome'] = np.select([m1, m2], [2,1], default=0)
print (df_a)
   subject_id first_name last_name  outcome
0           1       Alex  Anderson        0
1           2        Amy  Ackerman        2
2           3      Allen       Ali        0
3           4      Alice      Aoni        1
4           5     Ayoung   Atiches        0

或者:

df_a['outcome'] = np.where(m1, 2, np.where(m2, 1, 0))
print (df_a)
   subject_id first_name last_name  outcome
0           1       Alex  Anderson        0
1           2        Amy  Ackerman        2
2           3      Allen       Ali        0
3           4      Alice      Aoni        1
4           5     Ayoung   Atiches        0

关于Python——添加考虑其他列值的新列来为新列创建值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46503518/

相关文章:

python - 操作系统错误: port/proto not found in for loop

python - 数据结构;将元组列表转换为字典

python - Pandas 数据帧矢量化/过滤 : ValueError: Can only compare identically-labeled Series objects

python - 从最后一个索引开始查询数据库 SQLAlchemy

python - dir() 未列出的namedtuple 方法

python - 使用pandas将df写入sqlite

python - Pandas 日期功能 : Extracting Period Index information as String

r - R根据数据框中的二进制列对列中的封闭值进行子集化

python - 如何将pandas时间序列图中的xticks更改为每年间隔

python - 我们可以说从数学角度来说,Python 代码的时间复杂度比 C 代码更好吗?