python - 聚合 pandas 中的行重复(游程长度)

标签 python pandas numpy duplicates partitioning

在给定系统的快照的以下数据框中,我有兴趣记录 var1var2 随着时间的推移的任何变化,假设系统的状态保持不变,直到发生变化。这类似于游程长度编码,游程长度编码压缩在许多连续数据元素中出现相同数据值的序列。从这个意义上说,我对捕捉运行感兴趣。例如:

    var1 var2   timestamp
    foo  2  2017-01-01 00:07:45
    foo  2  2017-01-01 00:13:42
    foo  3  2017-01-01 00:19:41
    bar  3  2017-01-01 00:25:41
    bar  2  2017-01-01 00:37:36
    bar  2  2017-01-01 00:43:37
    foo  2  2017-01-01 01:01:29
    foo  2  2017-01-01 01:01:34
    bar  2  2017-01-01 01:19:25
    bar  2  2017-01-01 01:25:22

应压缩为:

expected_output

       var1 var2       min              max
        foo 2   2017-01-01 00:07:45 2017-01-01 00:19:41
        foo 3   2017-01-01 00:19:41 2017-01-01 00:25:41
        bar 3   2017-01-01 00:25:41 2017-01-01 00:37:36
        bar 2   2017-01-01 00:37:36 2017-01-01 01:01:29
        foo 2   2017-01-01 01:01:29 2017-01-01 01:19:25
        bar 2   2017-01-01 01:25:22 None

我尝试了以下聚合,它可以有效地删除 var1var2 的重复数据,并提供每个组的最小和最大时间戳:

output = test.groupby(['var1','var2'])['timestamp'].agg(['min','max']).reset_index()

output

   var1 var2       min              max
    bar 2   2017-01-01 00:37:36 2017-01-01 01:25:22
    bar 3   2017-01-01 00:25:41 2017-01-01 00:25:41
    foo 2   2017-01-01 00:07:45 2017-01-01 01:01:34
    foo 3   2017-01-01 00:19:41 2017-01-01 00:19:41

但是,var1var2 可能会随着时间的推移而更改并恢复为相同的原始值,因此 min/max 函数不起作用,因为 var1 var2 应该随着时间的推移与同一列中的先前值进行比较,类似于但不完全是 shift() 方法的作用。

pandas 或 numpy 中是否有一种有效的方法,类似于 R 中的 rle() 方法,可以对此类运行进行分组或分区,并将下一次运行的最小时间戳作为其最大值?真实数据集超过 1000 万行。如有任何建议,我们将不胜感激!

最佳答案

对于连续分组,您可以对 (df.col != df.col.shift()).cumsum() 进行分组

您希望将其用于任一列,以便可以 | 将它们放在一起。

>>> ((df.var1 != df.var1.shift()) | (df.var2 != df.var2.shift())).cumsum()
0    1
1    1
2    2
3    3
4    4
5    4
6    5
7    5
8    6
9    6
dtype: int64

分组+聚合

>>> cond = ((df.var1 != df.var1.shift()) | (df.var2 != df.var2.shift())).cumsum()
>>> output = df.groupby(cond).agg(
...     var1=('var1', 'first'),
...     var2=('var2', 'first'),
...     min=('timestamp', 'min'),
...     max=('timestamp', 'max')
... )
>>> output
  var1  var2                  min                  max
1  foo     2  2017-01-01 00:07:45  2017-01-01 00:13:42
2  foo     3  2017-01-01 00:19:41  2017-01-01 00:19:41
3  bar     3  2017-01-01 00:25:41  2017-01-01 00:25:41
4  bar     2  2017-01-01 00:37:36  2017-01-01 00:43:37
5  foo     2  2017-01-01 01:01:29  2017-01-01 01:01:34
6  bar     2  2017-01-01 01:19:25  2017-01-01 01:25:22

然后您可以将最大值设置为下一行的最小值:

>>> output['max'] = output['min'].shift(-1)
>>> output
  var1  var2                  min                  max
1  foo     2  2017-01-01 00:07:45  2017-01-01 00:19:41
2  foo     3  2017-01-01 00:19:41  2017-01-01 00:25:41
3  bar     3  2017-01-01 00:25:41  2017-01-01 00:37:36
4  bar     2  2017-01-01 00:37:36  2017-01-01 01:01:29
5  foo     2  2017-01-01 01:01:29  2017-01-01 01:19:25
6  bar     2  2017-01-01 01:19:25                  NaN

关于python - 聚合 pandas 中的行重复(游程长度),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66633109/

相关文章:

arrays - numpy 搜索多个值的数组,并返回它们的索引

python - azure ml 实验返回与 webservice 不同的结果

python - 使用 mongoengine 将文件保存到 MongoDB GridFS 时遇到问题

python - 使用 key 合并两个 Pandas 系列

Python没有名为numpy的模块

pandas - 在 matplotlib 中绘制具有不同数量元素的列表

python - 使用 Python 的 MRQ 库执行重复任务

python - 当某些字符串具有 UTF-8 字符时,pandas DataFrame.style.render

python - 带有 x 轴范围的 Pandas 箱线图

python - 选择基于 where 语句的行