python - Pandas 添加列比较结果

标签 python pandas lambda apply

如何为数据框中的每一行添加比较列(即 lead)到我的数据框中。它应该取列平均值(总体领先平均值)并减去其月平均值。这可以通过 apply 和使用 groupby 的 lambda 来完成吗?

即如何创建一个额外的比较列,Lead_Diff,即行项目“每月平均读数”与其整体/列平均值的差异。下面是我的数据的模型,提前致谢。

info = {'date': ['01-18', '02-18', '03-18', '01-18','02-18','01-18','03-18'], 
        'lead': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6,0.7],
        'copper': [0.7, 0.6, 0.5, 0.4, 0.3, .2, 0.1]}

df = pd.DataFrame.from_dict(info)

最佳答案

我相信你需要transform对于与原始 DataFrame 大小相同的新 Series 中的 mean 并减去列的 mean:

df['mean'] = df.groupby('date')['lead'].transform('mean') - df['lead'].mean()
print (df)
    date  lead  copper      mean
0  01-18   0.1     0.7 -0.033333
1  02-18   0.2     0.6 -0.050000
2  03-18   0.3     0.5  0.100000
3  01-18   0.4     0.4 -0.033333
4  02-18   0.5     0.3 -0.050000
5  01-18   0.6     0.2 -0.033333
6  03-18   0.7     0.1  0.100000

如果年份不重要并且只需要几个月的工作:

#changed data
info = {'date': ['01-18', '03-17', '03-18', '01-18','03-17','01-17','03-17'], 
    'lead': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6,0.7],
    'copper': [0.7, 0.6, 0.5, 0.4, 0.3, .2, 0.1]}
df = pd.DataFrame.from_dict(info)

df['date'] = pd.to_datetime(df['date'], format='%m-%y')
df['mean'] = df.groupby(df['date'].dt.month)['lead'].transform('mean') - df['lead'].mean()
print (df)
        date  lead  copper      mean
0 2018-01-01   0.1     0.7 -0.033333
1 2017-03-01   0.2     0.6  0.025000
2 2018-03-01   0.3     0.5  0.025000
3 2018-01-01   0.4     0.4 -0.033333
4 2017-03-01   0.5     0.3  0.025000
5 2017-01-01   0.6     0.2 -0.033333
6 2017-03-01   0.7     0.1  0.025000

关于python - Pandas 添加列比较结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53813755/

相关文章:

python - Pandas:for 循环遍历列

c# - 在动态 Lambda 表达式中获取 Count() 属性

c++ - C++11 中的 lambda 表达式是什么?

python - 将分类器训练为批处理

python - 在Python中应用函数

python - 将 Pandas 系列输出到txt文件

python - 无法从 pandas 转到 dask 数据帧,内存错误

python - 在 Python 中重现一个 C 函数指针数组

python - pandas DataFrame累计值

python - 使用 lambda 的 Telegram 机器人 message_handler