我使用 pandas 对一天中的同一时间(小时)进行分组,然后对一个昼夜周期的所有天进行平均,换句话说,对每个小时应用多日平均值。此外,我想对不同来源的数据进行平均,例如。电台或国家。
具体来说,我有一个数据框 df ,其 pandas 时间索引如下:
A B C
2010-01-02-07:00 10 22 30
2010-01-02-08:00 12 20 NaN
2010-01-03-07:00 11 8 15
2010-01-03-08:00 10 10 9
2010-01-03-09:00 11 13 18
2010-01-05-07:00 NaN 10 16
2010-01-05-09:00 14 0 7
关注此帖子:Can pandas groupby aggregate into a list, rather than sum, mean, etc? ,我可以通过提取同一小时的所有数据并将它们连接到一个列表中来实现我的目标。但我仍然想知道是否有更直接或更好的方法来做到这一点?
这里我展示我的代码如下:
df['hour'] = df.index.hour # create a new column for each time stamp
grp = df.groupby('hour').agg(lambda x: tuple(x)) # group by hour
result = grp[grp.columns[0]] # append all the columns
for col in grp.columns:
result = result + grp[col]
diurnal = [np.nanmean(np.array(result[hour])) for hour in grp.index] # average each tuple
这是输出:
Out:
[15.25, 12.2, 10.5]
非常感谢!
==========
我尝试了@Nickil的方法:
data = {'A': [10, 12, 11, 10, 11, np.nan, 14], 'B': [22, 20, 8, 10, 13, 10, 0], 'C': [30, np.nan, 15, 9, 18, 16, 7]}
df = pd.DataFrame(data, index=[datetime.datetime(2010,1,2,7,0), datetime.datetime(2010,1,2,8,0), datetime.datetime(2010,1,3,7,0), datetime.datetime(2010,1,3,8,0), datetime.datetime(2010,1,3,9,0), datetime.datetime(2010,1,5,7,0), datetime.datetime(2010,1,5,9,0)])
df.index = df.index.hour
diurnal = df.stack().mean(level=0).tolist()
这就是我得到的:
Out:
[20.666666666666668, 16.0, 11.333333333333334, 9.6666666666666661, 14.0, 13.0, 7.0]
最佳答案
这应该是一个更简单的方法:
1) 使用 .hour
属性访问小时并将其指定为新的索引轴。
2) 堆叠DF
,使所有列都属于一个完整的列。对小时标签(由多索引的 level=0
组成)执行 Groupby
并计算平均值。
df.index = df.index.hour
df.stack().mean(level=0).tolist()
Out[20]:
[15.25, 12.2, 10.5]
关于python - pandas groupby 跨列聚合数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41802299/