python - Pandas 蟒 : Merging every two rows in one dataframe

标签 python pandas

我怎么得到

Idx            A B C
2004-04-01     1 1 0
2004-04-02     1 1 0
2004-05-01     0 0 0
2004-05-02     0 0 0

Idx            A B C
2004-04        2 2 0
2004-05        0 0 0

注意事项: 如何折叠索引(更具体地说,使索引仅转换为月份)和每两行?

使用滚动均值是最好的方法吗?

更新 - 我使上面的版本变得简单,但 unutbu 的答案似乎不起作用

                       Time      A   B
1    2004-01-04 - 2004-01-10     0   0
2    2004-01-11 - 2004-01-17     0   0
3    2004-01-18 - 2004-01-24     0   0
4    2004-01-25 - 2004-01-31     0   0
5    2004-02-01 - 2004-02-07     56  0
6    2004-02-08 - 2004-02-14     67  0

最佳答案

您可以使用 groupby/sum operation 聚合行:

import pandas as pd
import numpy as np

df = pd.DataFrame([('2004-04-01', 1L, 1L, 0L), ('2004-04-02', 1L, 1L, 0L),
       ('2004-05-01', 0L, 0L, 0L), ('2004-05-02', 0L, 0L, 0L)],
                  columns=['Idx', 'A', 'B', 'C'])
df['Idx'] = pd.DatetimeIndex(df['Idx'])

您可以按年和月分组:

print(df.groupby([d.strftime('%Y-%m') for d in df['Idx']]).sum())
#          A  B  C
# 2004-04  2  2  0
# 2004-05  0  0  0

# [2 rows x 3 columns]

或者,每两行分组:

result = df.groupby(np.arange(len(df))//2).sum()
result.index = df.loc[1::2, 'Idx']
print(result)
#             A  B  C
# Idx                
# 2004-04-02  2  2  0
# 2004-05-02  0  0  0

# [2 rows x 3 columns]

注意:使用了 df.loc[1::2, 'Idx'] 而不是 df.loc[::2, 'Idx'] 所以聚合行的 Idx 将对应于每个组中的第二个日期,而不是第一个。

如果您只想要年份和月份,那么您可以使用此列表理解来设置索引:

result.index = [d.strftime('%Y-%m') for d in df.loc[1::2, 'Idx']]
print(result)
#          A  B  C
# 2004-04  2  2  0
# 2004-05  0  0  0

# [2 rows x 3 columns]

但是,在处理日期时,使用 DatetimeIndex 作为索引比使用字符串值索引更强大。因此,您可能希望保留 DatetimeIndex,使用 DatetimeIndex 完成大部分工作,并在末尾转换为年月字符串以用于演示目的...


关于更新的问题:

import pandas as pd
import numpy as np

data = np.rec.array([('2004-01-04 - 2004-01-10', 0L, 0L),
       ('2004-01-11 - 2004-01-17', 0L, 0L),
       ('2004-01-18 - 2004-01-24', 0L, 0L),
       ('2004-01-25 - 2004-01-31', 0L, 0L),
       ('2004-02-01 - 2004-02-07', 56L, 0L),
       ('2004-02-08 - 2004-02-14', 67L, 0L)], 
      dtype=[('Time', 'O'), ('A', '<i8'), ('B', '<i8')])
df = pd.DataFrame(data)

让一个时间列包含两个日期会使数据操作更加困难。最好有两个 DatetimeIndex 列,StartEnd:

df[['Start', 'End']] = df['Time'].str.extract('(?P<Start>.+) - (?P<End>.+)')
del df['Time']
df['Start'] = pd.DatetimeIndex(df['Start'])
df['End'] = pd.DatetimeIndex(df['End'])

然后您可以按 Start 列分组:

print(df.groupby([d.strftime('%Y-%m') for d in df['Start']]).sum())
#            A  B
# 2004-01    0  0
# 2004-02  123  0

# [2 rows x 2 columns]

或者每两行分组,本质上和之前一样:

result = df.groupby(np.arange(len(df))//2).sum()
result.index = df.loc[1::2, 'Start']
print(result)
#               A  B
# Start             
# 2004-01-11    0  0
# 2004-01-25    0  0
# 2004-02-08  123  0

# [3 rows x 2 columns]

关于python - Pandas 蟒 : Merging every two rows in one dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23277342/

相关文章:

python - 在 Python 中将二维 RGB 数组中的 'R' 和 'B' 元素设为零

python - 将文件夹中的多个 Excel 文件读取到 pandas 中

python - One-hot编码多级列数据

python - 具有基于索引的限制的前向填充列

python - QRubberBand.geometry().intersects(???) 如何在QGraphicsScene中找到相交的图像?

python - 如何将 C 中的 double 组转换为 python 列表?

python - 非零值的 Numpy 平均值

python - Django-复数形式的无效 token : EXPRESSION

python - 如何将选定的数据转换为相同的长度(形状)

python - Pandas to_latex() 转义数学模式