python - 在 Pandas 数据框中找到最小值并在新列上添加标签

标签 python pandas numpy group-by min

我可以对我的 python pandas 代码进行哪些改进以使其更高效?就我而言,我有这个数据框

In [1]: df = pd.DataFrame({'PersonID': [1, 1, 1, 2, 2, 2, 3, 3, 3],
                           'Name': ["Jan", "Jan", "Jan", "Don", "Don", "Don", "Joe", "Joe", "Joe"],
                           'Label': ["REL", "REL", "REL", "REL", "REL", "REL", "REL", "REL", "REL"],
                           'RuleID': [55, 55, 55, 3, 3, 3, 10, 10, 10],
                           'RuleNumber': [3, 4, 5, 1, 2, 3, 234, 567, 999]})

结果如下:

In [2]: df
Out[2]: 
   PersonID Name Label  RuleID  RuleNumber
0         1  Jan   REL      55          3
1         1  Jan   REL      55          4
2         1  Jan   REL      55          5
3         2  Don   REL       3          1
4         2  Don   REL       3          2
5         2  Don   REL       3          3
6         3  Joe   REL      10        234
7         3  Joe   REL      10        567
8         3  Joe   REL      10        999

我在这里需要完成的是将 Label 列下的字段更新为 MAIN,以获得与应用于 Person ID 和 Name 的每个 Rule ID 关联的最低规则值。因此,结果需要如下所示:

In [3]: df
Out[3]:
   PersonID Name Label  RuleID  RuleNumber
0         1  Jan  MAIN      55           3
1         1  Jan   REL      55           4
2         1  Jan   REL      55           5
3         2  Don  MAIN       3           1
4         2  Don   REL       3           2
5         2  Don   REL       3           3
6         3  Joe  MAIN      10         234
7         3  Joe   REL      10         567
8         3  Joe   REL      10         999

这是我为此编写的代码:

In [4]:

df['Label'] = np.where(
        df['RuleNumber'] ==
        df.groupby(['PersonID', 'Name', 'RuleID'])['RuleNumber'].transform('min'),
        "MAIN", df.Label)

有没有更好的方法来更新Label列下的值?我觉得我在强行通过,这可能不是最有效的方法。

我使用了以下 SO 线程来得出我的结果:

Replace column values within a groupby and condition

Replace values within a groupby based on multiple conditions

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.idxmin.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transform.html

Using Pandas to Find Minimum Values of Grouped Rows

如有任何建议,我们将不胜感激。

谢谢。

最佳答案

似乎您可以按分组的 idxmin 进行过滤,而不管排序顺序如何,并基于此更新 RuleNumber。您可以使用 locnp.wheremaskwhere,如下所示:

df.loc[df.groupby(['PersonID', 'Name', 'RuleID'])['RuleNumber'].idxmin(), 'Label'] = 'MAIN'

或在您尝试时使用 np.where:

df['Label'] = (np.where((df.index == df.groupby(['PersonID', 'Name', 'RuleID'])
                         ['RuleNumber'].transform('idxmin')), 'MAIN', 'REL'))
df
Out[1]: 
   PersonID Name Label  RuleID  RuleNumber
0         1  Jan  MAIN      55           3
1         1  Jan   REL      55           4
2         1  Jan   REL      55           5
3         2  Don  MAIN       3           1
4         2  Don   REL       3           2
5         2  Don   REL       3           3
6         3  Joe  MAIN      10         234
7         3  Joe   REL      10         567
8         3  Joe   REL      10         999

使用 mask 或其逆 where 也可以:

df['Label'] = (df['Label'].mask((df.index == df.groupby(['PersonID', 'Name', 'RuleID'])
                         ['RuleNumber'].transform('idxmin')), 'MAIN'))

df['Label'] = (df['Label'].where((df.index != df.groupby(['PersonID', 'Name', 'RuleID'])
                         ['RuleNumber'].transform('idxmin')), 'MAIN'))

关于python - 在 Pandas 数据框中找到最小值并在新列上添加标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65347497/

相关文章:

python - 如何在python中正确显示和隐藏GTK窗口

javascript - 根据 GPS 坐标更新谷歌地图位置

python - 如何在 pandas 或 matplotlib 中绘制两个 y 轴上的数据?

python - 值错误 : operands could not be broadcast together with shapes - inverse_transform- Python

python - 在 Pandas 数据框中跨列查找匹配值

python - pandas - 将一列转换为字符串列表后计算总体元素

python - Windows 错误 [5] : Access Denied H2o Deep Learning Framework Initialization using Python

python - 根据百分位数从 pandas 数据框中排除数据

python - Pandas GroupBy,将新的数字列表列与另一列数字列表进行比较

python - 计算矩阵列平均值