python - 在多个时间范围内聚合/重采样 pandas 多索引数据帧并预测 ARIMA

我有多个时间范围我想跟踪和预测值(ARIMA 预测每个时间范围提前 1 个周期)，我的算法检索最低时间范围内的数据。注意:每个时间范围都可以(但不一定对称)被较低的时间范围整除。作为重要的旁注，盘中时间框架(1H、4H)应从上午 9:30(市场开盘时间)开始。

1min, 5min, 15min, 30min, 1H, 4H, 1D, 1W, 1M

首先，该算法执行批量 history 调用并获取给定时间跨度内的所有 1 分钟数据(预热数据)。然后在其运行过程中(永不停止；它是一种交易算法)，它每分钟接收一次数据。

第一步(在接收大量历史数据后)是使用越来越小的数据集为每个相应的更高时间范围聚合它以节省处理时间:

即，

1分钟时间范围数据=1分钟数据(历史批量数据)
5 分钟时间范围数据 = 聚合 1 分钟时间范围数据到 5 分钟
15 分钟时间范围数据 = 聚合 5 分钟时间范围数据到 15 分钟
等等……

给定以下示例数据集(并假设可能包含其他符号):

                                 close        high         low        open
symbol time                                                                  
SPY    2018-05-22 09:31:00  270.245900  270.374166  270.226167  270.305100   
       2018-05-22 09:32:00  270.344566  270.374166  270.206434  270.245900   
       2018-05-22 09:33:00  270.374166  270.374166  270.314966  270.344566   
       2018-05-22 09:34:00  270.275500  270.374166  270.245900  270.374166   
       2018-05-22 09:35:00  270.413632  270.443232  270.275500  270.275500   
       2018-05-22 09:36:00  270.502431  270.522165  270.384032  270.413632   
       2018-05-22 09:37:00  270.541898  270.591231  270.492565  270.502431

Q1:如何聚合多索引 pandas 数据框，以便按符号聚合时间索引和列？部分未经测试(并且可能无法正常工作)的解决方案说明了我的意图如下:

# Where timeframe.Frequency is a string such as "1H" or "1min"
df.resample(timeframe.Frequency).agg({"open": "first", "close": "last", "low": "min", "high": "max"})

A1: df.groupby(['symbol', pd.Grouper(freq=timeframe.Frequency, level='time')]).agg({'open': 'first', 'close':'last', 'high':'max', 'low':'min'})

Q2:鉴于较高时间范围内将有部分完成的“条形”(例如，5 分钟时间范围数据将包含 @9:35am 完整条形数据和 @9:37am 部分条形数据表示就像上午 9:40 一样)，在给定时间范围的数据集中拥有部分数据是否明智，或者我应该使用 QuantConnect 的 consolidator 在运行时将其添加到数据集之前完成条形图？在处理 history 时，我如何考虑这部分条形数据？

A2:重采样时确实创建了部分条形图。例如，我可能在 6 月 1 日之后有一个 1 分钟的数据点，而我的每月时间框架数据帧将有一个 6 月 30 日的条目，其中包含 1 分钟柱的 OHLC 值。此时，我可以删除该行，也可以在数据进入时用新值继续更新它。

最佳答案

对于您的第一个问题，假设数据由 symbol 和 time 索引:

(df.groupby(['symbol', df.index.get_level_values(1).floor('5T')])
   .agg({"open": "first", 
         "close": "last", 
         "low": "min", 
         "high": "max"})
)

给出:

                                open        close       low         high
symbol  time                
SPY     2018-05-22 09:30:00     270.305     270.276     270.206     270.374
SPY     2018-05-22 09:35:00     270.276     270.542     270.276     270.591

第二个问题过于定性，很大程度上取决于您的数据和抽样窗口。

关于python - 在多个时间范围内聚合/重采样 pandas 多索引数据帧并预测 ARIMA，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56278496/

python - 在多个时间范围内聚合/重采样 pandas 多索引数据帧并预测 ARIMA

上一篇：python - 单图多条线传递一组颜色？

下一篇：python - 在 Python 中从每组行索引中的多个列中查找最大值，将这些值按对角线排列在矩阵中，并找到行列式