python - pandas groupby 跨列聚合数据

标签 python pandas dataframe aggregate

我使用 pandas 对一天中的同一时间(小时)进行分组,然后对一个昼夜周期的所有天进行平均,换句话说,对每个小时应用多日平均值。此外,我想对不同来源的数据进行平均,例如。电台或国家。

具体来说,我有一个数据框 df ,其 pandas 时间索引如下:

                     A    B    C 
2010-01-02-07:00    10   22   30
2010-01-02-08:00    12   20   NaN
2010-01-03-07:00    11   8    15
2010-01-03-08:00    10   10   9
2010-01-03-09:00    11   13   18
2010-01-05-07:00    NaN  10   16
2010-01-05-09:00    14   0    7

关注此帖子:Can pandas groupby aggregate into a list, rather than sum, mean, etc? ,我可以通过提取同一小时的所有数据并将它们连接到一个列表中来实现我的目标。但我仍然想知道是否有更直接或更好的方法来做到这一点?

这里我展示我的代码如下:

df['hour'] = df.index.hour        # create a new column for each time stamp
grp = df.groupby('hour').agg(lambda x: tuple(x))       # group by hour

result = grp[grp.columns[0]]          # append all the columns
for col in grp.columns:
    result = result + grp[col]

diurnal = [np.nanmean(np.array(result[hour]))  for hour in grp.index]       # average each tuple

这是输出:

Out:
 [15.25, 12.2, 10.5]

非常感谢!

==========

我尝试了@Nickil的方法:

data = {'A': [10, 12, 11, 10, 11, np.nan, 14], 'B': [22, 20, 8, 10, 13, 10, 0], 'C': [30, np.nan, 15, 9, 18, 16, 7]}
df = pd.DataFrame(data, index=[datetime.datetime(2010,1,2,7,0), datetime.datetime(2010,1,2,8,0), datetime.datetime(2010,1,3,7,0), datetime.datetime(2010,1,3,8,0), datetime.datetime(2010,1,3,9,0), datetime.datetime(2010,1,5,7,0), datetime.datetime(2010,1,5,9,0)])
df.index = df.index.hour
diurnal = df.stack().mean(level=0).tolist()

这就是我得到的:

Out:
 [20.666666666666668, 16.0, 11.333333333333334, 9.6666666666666661, 14.0, 13.0, 7.0]

最佳答案

这应该是一个更简单的方法:

1) 使用 .hour 属性访问小时并将其指定为新的索引轴。

2) 堆叠DF,使所有列都属于一个完整的列。对小时标签(由多索引的 level=0 组成)执行 Groupby 并计算平均值。

<小时/>
df.index = df.index.hour                 
df.stack().mean(level=0).tolist()  
Out[20]:
[15.25, 12.2, 10.5]

关于python - pandas groupby 跨列聚合数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41802299/

相关文章:

python - 为 pandas MultiIndex 添加一个级别

python - 如何从两个列表创建 pandas 数据框,其中第一个列表的每个值将第二个列表的每个值作为记录

.net - 从多页 TIFF 文件中删除/删除页面

python - Numpy 向量化弄乱了数据类型

python 数据库抽象来存储未腌制的数据结构

python - 更新 Geopandas 图中的补丁边缘颜色

python - 在数据框中创建列

python - Pandas :找到高于定义阈值的结束频谱

python - 逐月变换逐月变换

python - 有优化这个算法的想法吗?