python-2.7 - 根据不规则的时间间隔合并 Pandas 数据帧

标签 python-2.7 merge pandas time-series group-by

我想知道如何加快两个数据帧的合并。其中一个数据帧具有时间戳数据点 (value col)。

import pandas as pd
import numpy as np

data = pd.DataFrame({'time':np.sort(np.random.uniform(0,100,size=50)),
                     'value':np.random.uniform(-1,1,size=50)})

另一个有时间间隔信息( start_timeend_time 和相关的 interval_id )。
intervals = pd.DataFrame({'interval_id':np.arange(9),
                          'start_time':np.random.uniform(0,5,size=9) + np.arange(0,90,10),    
                          'end_time':np.random.uniform(5,10,size=9) + np.arange(0,90,10)})

我想比 for 更有效地合并这两个数据帧。循环如下:
data['interval_id'] = np.nan
for index, ser in intervals.iterrows():
    in_interval = (data['time'] >= ser['start_time']) & \
                  (data['time'] <= ser['end_time'])
    data['interval_id'][in_interval] = ser['interval_id']

result = data.merge(intervals, how='outer').sort('time').reset_index(drop=True)

我一直在想我可以使用 pandas time series functionality ,比如日期范围或 TimeGrouper,但我还没有想出比上述更 Python 的( Pandas ?)。

示例结果:
     time      value     interval_id  start_time   end_time
0    0.575976  0.022727          NaN         NaN        NaN
1    4.607545  0.222568            0    3.618715   8.294847
2    5.179350  0.438052            0    3.618715   8.294847
3   11.069956  0.641269            1   10.301728  19.870283
4   12.387854  0.344192            1   10.301728  19.870283
5   18.889691  0.582946            1   10.301728  19.870283
6   20.850469 -0.027436          NaN         NaN        NaN
7   23.199618  0.731316            2   21.488868  28.968338
8   26.631284  0.570647            2   21.488868  28.968338
9   26.996397  0.597035            2   21.488868  28.968338
10  28.601867 -0.131712            2   21.488868  28.968338
11  28.660986  0.710856            2   21.488868  28.968338
12  28.875395 -0.355208            2   21.488868  28.968338
13  28.959320 -0.430759            2   21.488868  28.968338
14  29.702800 -0.554742          NaN         NaN        NaN

非常感谢精通时间序列的人的任何建议。

在杰夫的回答之后更新:

主要问题是interval_id与任何常规时间间隔无关(例如,间隔并不总是大约 10 秒)。一个间隔可能是 10 秒,下一个可能是 2 秒,下一个可能是 100 秒,所以我不能使用 Jeff 提出的任何常规舍入方案。不幸的是,我上面的最小示例并没有说明这一点。

最佳答案

您可以使用 np.searchsorted查找表示 data['time'] 中每个值的位置的索引适合 intervals['start_time'] .然后您可以调用np.searchsorted再次查找表示 data['time'] 中每个值的位置的索引适合 intervals['end_time'] .请注意,使用 np.searchsorted依赖 interval['start_time']interval['end_time']处于排序状态。

对于数组中的每个对应位置,这两个索引相等,data['time']介于 interval['start_time'] 之间和 interval['end_time'] .请注意,这依赖于不相交的间隔。

使用 searchsorted这种方式比使用 for-loop 快大约 5 倍:

import pandas as pd
import numpy as np

np.random.seed(1)
data = pd.DataFrame({'time':np.sort(np.random.uniform(0,100,size=50)),
                     'value':np.random.uniform(-1,1,size=50)})

intervals = pd.DataFrame(
    {'interval_id':np.arange(9),
     'start_time':np.random.uniform(0,5,size=9) + np.arange(0,90,10),    
     'end_time':np.random.uniform(5,10,size=9) + np.arange(0,90,10)})

def using_loop():
    data['interval_id'] = np.nan
    for index, ser in intervals.iterrows():
        in_interval = (data['time'] >= ser['start_time']) & \
                      (data['time'] <= ser['end_time'])
        data['interval_id'][in_interval] = ser['interval_id']

    result = data.merge(intervals, how='outer').sort('time').reset_index(drop=True)
    return result

def using_searchsorted():
    start_idx = np.searchsorted(intervals['start_time'].values, data['time'].values)-1
    end_idx = np.searchsorted(intervals['end_time'].values, data['time'].values)
    mask = (start_idx == end_idx)
    result = data.copy()
    result['interval_id'] = result['start_time'] = result['end_time'] = np.nan
    result['interval_id'][mask] = start_idx
    result.ix[mask, 'start_time'] = intervals['start_time'][start_idx[mask]].values
    result.ix[mask, 'end_time'] = intervals['end_time'][end_idx[mask]].values
    return result
In [254]: %timeit using_loop()
100 loops, best of 3: 7.74 ms per loop

In [255]: %timeit using_searchsorted()
1000 loops, best of 3: 1.56 ms per loop

In [256]: 7.74/1.56
Out[256]: 4.961538461538462

关于python-2.7 - 根据不规则的时间间隔合并 Pandas 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21367485/

相关文章:

python - 带有生成器的 PyMongo 批量写入操作特性

eclipse - SVN:在 Eclipse 中将分支与主干同步?

python-3.x - Pandas pd.cut() - 合并日期时间列/系列

python - 使用 Pandas 和 Regex 搜索并提取 txt 文件的值

python - Pandas 数据框 : get rows with same pair of values in two specific columns

python - 在 HTML 文件中导入 Python 代码

python - 我如何理解 .pyc 文件内容

Python - 如何跳过特定的 JSON 元素?

git push 不更新远程 git 存储库

java - ArrayList<String> 与坐标点的合并排序