python - 按给定的时间增量查找数据帧列中的时间戳

我有一个包含时间戳列的数据框。我的目标是找到每行的第一个时间戳，该时间戳大于该行的时间戳给定的偏移量(例如 0.01 秒)。我尝试使用 the answer given here ，以修改后的方式，例如:

def getTime(col, base, offset=0.01):
    later = filter(lambda d: d > base+dt.timedelta(seconds=offset), col)
    return min(later)

testTbt['testTime']=testTbt['exchTstamp'].apply(lambda time: getTime(testTbt[testTbt['exchTstamp']>time]['exchTstamp'].iloc[0:100].tolist(), time, 0.01))

但出现错误:ValueError:min() arg 是一个空序列。

时间戳为微秒级别，包含重复值且按递增顺序排列。

这是数据框的初始行:

    exchTstamp                  seqNum prev10mSecAvg prev1SecAvg    imbRegime
0   2019-08-14  09:15:00.022991 199    0.000000      0.000000       0
1   2019-08-14  09:15:00.022995 200   -0.166667     -0.166667       3
2   2019-08-14  09:15:00.022999 201   -0.277778     -0.277778       2
3   2019-08-14  09:15:00.023003 202   -0.333333     -0.333333       2
4   2019-08-14  09:15:00.023007 203   -0.386667     -0.386667       2

可以下载 csv 数据 here .

预期输出是数据帧中添加的一列，其中包含后续时间戳中的第一个时间戳，该时间戳比当前行的时间戳至少大 0.01 秒。例如:- 对于给定的数据集，第一行的新列(时间为 09:15:00.022995)应具有值 09:15:00.033136。对于后续的每一行都相同。

一点指导会有很大帮助。

最佳答案

我认为最快、最简单的方法是使用 searchsorted 。如果没有大于 df.exchTstamp+delta 的元素，则 searchsorted 将返回数组的长度，即超出数据帧索引范围的索引。因此，我们首先需要为这种情况插入一个 nan/NaT 哨兵行，然后将其删除:

import numpy as np, pandas as pd, datetime as dt

df = pd.read_csv('stack.csv', index_col=0, parse_dates=[1])
delta = dt.timedelta(seconds=0.01)

res = np.searchsorted(df.exchTstamp, df.exchTstamp+delta)

# add sentinel
df.append(pd.Series(), ignore_index=True)

df["testTime"] = df.loc[res,'exchTstamp'].values

# remove sentinel
df = df.drop(df.index[-1])

df.to_csv('stack-out.csv')

关于python - 按给定的时间增量查找数据帧列中的时间戳，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57604025/

python - 按给定的时间增量查找数据帧列中的时间戳

上一篇：python - 将 dict 中的所有值转换为它们的实际类型

下一篇：python - 如何让 python 进程保持事件状态——正确的方法