python - 在python中计算每年前10名的平均值(groupby,nlargest)

标签 python pandas numpy dataframe

我想获取数据集中每年前 10 个“净利润”的平均值,并将其存储在新的 df 中。这是我目前所拥有的。

#loading the csv file
df = pd.read_csv('tmdb-movies.csv')

#Narrows down data to only include the last 25 years
df = df[df['release_year'] > 1992]

#Create column for calculated profit (revenue - budget)
df['Net Profit'] = (df['revenue_adj'] - df['budget_adj']) / 1000000

df = df['Net Profit'].groupby(df['release_year']).nlargest(10)

df.head(20)

这是我目前的输出:

release_year       
1993          10223    1293.766704
              10225     628.371507
              10226     490.390201
              10222     451.732687
              10312     345.086055
              10260     344.534054
              10240     312.158213
              10234     279.252261
              10228     272.728678
              10250     226.825117
1994          4180     1093.391570
              4179      916.422179
              4187      483.382849
              4181      471.414971
              4203      434.906488
              4186      388.200466
              4197      365.866669
              4182      338.760765
              4177      302.944183
              4194      246.901592
Name: Net Profit, dtype: float64

我想要的输出是这样的:

release_year      Average Net Profit
1993              400
1994              459
1995              480

最佳答案

level=0 分组,以便索引和使用 .mean()

df.groupby(df.index.get_level_values(level=0)).mean()

release_year
1993    464.484548
1994    504.219173
1995    511.392629
1996    424.185431
1997    543.448686
Name: Net Profit, dtype: float64

关于python - 在python中计算每年前10名的平均值(groupby,nlargest),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52349597/

相关文章:

python - 查找欠定线性系统中哪些变量是自由的

python - 为数据框Python列中的每个唯一值创建Excel工作表

python - 将 HDF 数据集加载到 python 中,但它被识别为空

python - 如何获取pandas中两个日期之间的工作日数

python - 在多处理进程之间共享大型只读 Numpy 数组

python - 从 numpy 数组绘制多个数据系列

python - Keras 金融神经网络输入错误 : Expected 4 Dimensions, 收到输入形状 (1172, 1, 5)

python - 在不删除逗号的情况下将数据帧写入 csv

python - Pandas 根据列名删除列

python - 如何识别两行中的特定事件并计算计数