python - 将组的最后一个值替换为 NaN

我的目标是用 NaN 替换每个 id 的最后一个值(或最后几个值)。我的真实数据集非常大，并且具有不同大小的组。

示例:

import pandas as pd

ids = [1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3]
year = [2000,2001,2002,2003,2004,2005,1990,1991,1992,1993,1994,1995,2010,2011,2012,2013,2014,2015]
percent = [120,70,37,40,50,110,140,100,90,5,52,80,60,40,70,60,50,110]

dictex ={"id":ids,"year":year,"percent [%]": percent}
dfex = pd.DataFrame(dictex)
print(dfex)

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                   50
5           1               2005                  110
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                   52
11          2               1995                   80
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                   50
17          3               2015                  110

我的目标是用 NaN 替换每个 id(组)的“percent [%]”列的最后 1/或 2/或 3 个值。

结果应如下所示:(此处:替换每个 id 的最后 2 个值)

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                  NaN
5           1               2005                  NaN
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                  NaN
11          2               1995                  NaN
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                  NaN
17          3               2015                  NaN

我知道应该有一个相对简单的解决方案，但我是 python 新手，根本无法找到一种优雅的方法。感谢您的帮助!

最佳答案

尝试使用groupby , tail和 index查找将要修改的行的索引并使用 loc更改值

nrows = 2
idx = df.groupby('id').tail(nrows).index
df.loc[idx, 'percent [%]'] = np.nan

#output
    id  year    percent [%]
0   1   2000    120.0
1   1   2001    70.0
2   1   2002    37.0
3   1   2003    40.0
4   1   2004    NaN
5   1   2005    NaN
6   2   1990    140.0
7   2   1991    100.0
8   2   1992    90.0
9   2   1993    5.0
10  2   1994    NaN
11  2   1995    NaN
12  3   2010    60.0
13  3   2011    40.0
14  3   2012    70.0
15  3   2013    60.0
16  3   2014    NaN
17  3   2015    NaN

关于python - 将组的最后一个值替换为 NaN，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63901282/

python - 将组的最后一个值替换为 NaN

上一篇：.net-core - "MCD"命令创建的 `dotnet publish` 配置是什么？

下一篇：amazon-web-services - 如何为我的 Elastic Beanstalk Java 应用程序启用 HTTPS？