python - 如何找到一行的值连续达到最大值的次数

我想找出一行的值连续达到最大值的次数。

Ps1:我的数据有500K行，所以我比较关心计算速度
Ps2:在这个例子中，startDay =1 和 endDay=7 但一些行有不同的开始或结束日期。 (例如 startDay=2、endDay=5 或开始日=4，结束日=3。 arr_bool 控制这个条件)

我的数据:

import pandas as pd
import numpy as np
idx = ['id1', 'id2', 'id3', 'id4', 'id5',
       'id6', 'id7', 'id8', 'id9', 'id10']
data = {'Day1':[0,0,1,0,1,1,0,0,1,1],
        'Day2':[0,1,1,1,2,1,0,1,1,2],
        'Day3':[1,3,1,1,1,0,0,1,3,2],
        'Day4':[1,2,0,1,1,0,0,2,1,1],
        'Day5':[0,2,1,1,1,1,0,2,1,1],
        'Day6':[1,0,1,1,2,1,0,2,1,1],
        'Day7':[0,0,0,1,1,1,0,0,3,1]}

startday = pd.DataFrame([1,1,1,1,1,1,1,1,1,1],columns=['start'], index=idx)
endday = pd.DataFrame([7,7,7,7,7,7,7,7,7,7],columns=['end'], index=idx)
df = pd.DataFrame(data, index=idx)
Neg99 = -999
Neg90 = -900

我应该搜索每一行的时间间隔。(就像从开始日到结束日的循环) 我可以在时间间隔内找到最大值，但找不到连续命中最大值的行的值计数。

arr_bool = (np.less_equal.outer(startday.start, range(1,8)) 
            & np.greater_equal.outer(endday.end, range(1,8))
            )
df_result = pd.DataFrame(df.mask(~arr_bool).max(axis=1),
                                        index=idx, columns=['result'])

最后条件:

df_result.result= np.select( condlist = [startday.start > endday.end,
                                         ~arr_bool.any(axis=1)],
                         choicelist = [Neg99,Neg90], 
                         default = df_result.result)

我想要的结果；

result_i_want = pd.DataFrame([2,1,3,6,1,3,0,3,1,2],columns=['result'], index=idx)

这是@WeNYoBen 的解决方案，但运行速度很慢；

s=((df.eq(df.max(1),0))&(df.ne(0)))
s.apply(lambda x : x[x].groupby((~x).cumsum()).count().max(),1).fillna(0)

最佳答案

纯 Numpy 切片等

这项工作的重点是 OP 要求速度。这应该有所帮助。如果您可以访问像 numba 这样的 JIT 库，您应该使用它并循环遍历每一行。

sd = startday.start.values
ed = endday.end.values

dr = ed - sd + 1

i = np.arange(len(df)).repeat(dr)
j = np.concatenate([np.arange(s - 1, e) for s, e in zip(sd, ed)])

v = df.values

mx = np.empty(len(v), dtype=v.dtype)
mx.fill(v.min())
np.maximum.at(mx, i, v[i, j])

b = np.ones((v.shape[0], v.shape[1] + 2), bool)

b[i, j + 1] = (v[i, j] != mx[i]) | (mx[i] == 0)

x, y = np.where(b)

y_ = np.diff(y)
mask = y_ > 0
y__ = y_[mask]
x__ = x[1:][mask]

c = np.empty(len(v), int)
c.fill(y__.min())
np.maximum.at(c, x__, y__)

c - 1

array([2, 1, 3, 6, 1, 3, 0, 3, 1, 2])

说明

我将不理会显而易见的事情。

这表示每个区间的天数

dr = ed - sd + 1

i 是 j

中相应扁平化列索引的扁平化相关行索引

i = np.arange(len(df)).repeat(dr)
j = np.concatenate([np.arange(s - 1, e) for s, e in zip(sd, ed)])

mx 将是每个间隔的最大值。

b 将是一个 bool 数组，宽度比 v 多 2 列。对于这种情况，它看起来像:

#       Buffer                                                  Buffer
#        /--\                                                    /--\
array([[ True,  True,  True, False, False,  True, False,  True,  True],
       [ True,  True,  True, False,  True,  True,  True,  True,  True],
       [ True, False, False, False,  True, False, False,  True,  True],
       [ True,  True, False, False, False, False, False, False,  True],
       [ True,  True, False,  True,  True,  True, False,  True,  True],
       [ True, False, False,  True,  True, False, False, False,  True],
       [ True, False, False, False, False, False, False, False,  True],
       [ True,  True,  True,  True, False, False, False,  True,  True],
       [ True,  True,  True, False,  True,  True,  True, False,  True],
       [ True,  True, False, False,  True,  True,  True,  True,  True]])

缓冲区列的原因是我可以在使用 np.where 后计算位置差异

现在我填充 b，其中 v 值不等于 mx 中的最大值

 #             not equal to max       is equal to zero
 b[i, j + 1] = (v[i, j] != mx[i]) | (mx[i] == 0)

然后我找到这些位置在 y 中的位置。

通过diff，我找到了从一个不等于最大值的实例到下一个不等于最大值的位置的位置数。这将始终比我们正在寻找的数字大 1，但我们稍后会更正。

此外，diff 会将长度减少一个，但实际上，有一堆我们不需要的东西，因为我不需要从一行中获取相对于一行的差异前一行。幸运的是，我可以去掉所有零差或负差，因为它们没有意义。

我再次使用 np.maximum.at，但这次在差异上找到最大的差异，这将是每行连续最大值的最长长度。

注意其实还不止一个

呸。我厌倦了打字...

关于python - 如何找到一行的值连续达到最大值的次数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56190740/

python - 如何找到一行的值连续达到最大值的次数

纯 Numpy 切片等

说明

上一篇：python - 如何获取导致 any() 返回 True 的值？

下一篇：python - Groupby 总和、索引与列结果