python - Pandas 数据帧上的滞后数据

标签 python pandas scikit-learn forecasting sklearn-pandas

我正在使用 sklearn 进行预测。通常我会创建滞后数据来进行预测,如果该功能仅包含 1 列,这很容易。

例如:

index  temperature
1      100
2      80
3      50
4      90
5      110

通常我会创建另一列,通过改变温度值来使用如下函数创建滞后数据:

dataframe.temperature.shift()

所以我的数据框变成:

index  temperature temperature2 temperature3
1      100         NaN          NaN
2      80          100          NaN
3      50          80           100
4      90          50           80
5      110         90           50

然后当我想要预测时,我可以使用如下代码:

x = dataframe.loc[:,('temperature3','temperature2')]
y = dataframe.temperature
model.fit([x],y)

问题是,当我有很多列来创建滞后数据,并且每列需要更多滞后数据时,我的数据框将太大。

有什么简单的方法可以使用吗?谢谢!

作为引用,这是我的数据框:

import pandas as pd
import talib

df = pd.read_csv('..\\data\\uj5.CSV', names=['date','time','open','high','low','close','volume'])
df.index = pd.to_datetime(df.date + df.time,format='%Y.%m.%d%H:%M')


# assuming this is the 'X', let say i need 100 lags of these column to predict the 'Y'
df['CDLBELTHOLD'] = talib.CDLBELTHOLD(df.open.values, df.high.values, df.low.values, df.close.values)
df['CDLCLOSINGMARUBOZU'] = talib.CDLCLOSINGMARUBOZU(df.open.values, df.high.values, df.low.values, df.close.values)
df['CDLDOJI'] = talib.CDLDOJI(df.open.values, df.high.values, df.low.values, df.close.values)
df['CDLHIKKAKE'] = talib.CDLHIKKAKE(df.open.values, df.high.values, df.low.values, df.close.values)
df['CDLLONGLEGGEDDOJI'] = talib.CDLLONGLEGGEDDOJI(df.open.values, df.high.values, df.low.values, df.close.values)
df['CDLLONGLINE'] = talib.  CDLLONGLINE(df.open.values, df.high.values, df.low.values, df.close.values)
df['CDLSHORTLINE'] = talib.CDLSHORTLINE(df.open.values, df.high.values, df.low.values, df.close.values)
df['CDLSPINNINGTOP'] = talib.CDLSPINNINGTOP(df.open.values, df.high.values, df.low.values, df.close.values)
df['atr'] = talib.ATR(df.high.values, df.low.values, df.close.values,timeperiod=14)


#assuming this is the Y
df['target'] = #some int value

最佳答案

如果你最终得到一个大矩阵,我不会在这里使用 pandas 。 Numpy 在这里更合适:

import numpy as np

x = you_data_frame.values
max_lag = 10 # number of lags you want to have 

m = np.array([])
for i in np.arange(len(x) - max_lag):
    new_row = x[i:i+max_lag][None, :]
    if len(m) == 0:
        m = new_row
    else:
        m = np.vstack([m, new_row])

然后你使用

来拟合你的数据
model.fit(m[:, 1:], m[:, 0])

关于python - Pandas 数据帧上的滞后数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47646093/

相关文章:

python - Pandas bool 索引 : matching a set

python - RandomForestClassifier 性能不佳

python - 与 R 相比,Python 中支持向量机的技术较差

python - 在Python中查找列表中的元素集而不进行排序

Python tkinter.ttk 组合框在退出时抛出异常

python - pandas DataFrame.groupby 并应用自定义函数

python - 用于提取 ngram 的 TF-IDF 向量化器

Python:升级我自己的包

python - 求和多个python字典的对应元素

python - Pandas .join 无法合并 S&P500 股票数据