python - 机器学习-如何使用过去的 20 行作为每个 Y 值的 X 的输入

标签 python pandas machine-learning keras finance

我这里有一个非常简单的机器学习代码:

# load dataset
dataframe = pandas.read_csv("USDJPY,5.csv", header=None)
dataset = dataframe.values
X = dataset[:,0:59]
Y = dataset[:,59]
#fit Dense Keras model
model.fit(X, Y, validation_data=(x,y_test), epochs=150, batch_size=10)

我的 X 值是 59 个特征,第 60 列是我的 Y 值,一个简单的 1 或 0 分类标签。

考虑到我使用的是财务数据,我想回顾过去的 20 个 X 值以预测 Y 值。

那么如何让我的算法使用过去 20 行作为每个 Y 值的 X 的输入?

我是机器学习的新手,花了很多时间在网上寻找我的问题的解决方案,但我找不到像我这样简单的东西。

有什么想法吗?

最佳答案

这通常是通过递归神经网络 (RNN) 完成的,它会在收到下一个输入时保留上一个输入的一些内存。这是对发生的事情的非常简短的解释,但互联网上有大量资源可以更好地概括您对它们如何工作的理解。

让我们用一个简单的例子来分解它。假设您有 5 个样本和 5 个数据特征,并且您希望将两个数据错开 2 行而不是 20 行。这是您的数据(假设 1 只股票,最旧的价格值排在第一位)。我们可以将每一行视为一周中的一天

ar = np.random.randint(10,100,(5,5))

[[43, 79, 67, 20, 13],    #<---Monday---
 [80, 86, 78, 76, 71],    #<---Tuesday---
 [35, 23, 62, 31, 59],    #<---Wednesday---
 [67, 53, 92, 80, 15],    #<---Thursday---
 [60, 20, 10, 45, 47]]    #<---Firday---

要在 keras 中使用 LSTM,您的数据需要是 3-D 的,而不是当前的 2-D 结构,每个维度的符号是 (samples,时间步长、特征)。目前您只有 (samples,features),因此您需要扩充数据。

a2 = np.concatenate([ar[x:x+2,:] for x in range(ar.shape[0]-1)])
a2 = a2.reshape(4,2,5)

[[[43, 79, 67, 20, 13],    #See Monday First
  [80, 86, 78, 76, 71]],   #See Tuesday second ---> Predict Value originally set for Tuesday
 [[80, 86, 78, 76, 71],    #See Tuesday First
  [35, 23, 62, 31, 59]],   #See Wednesday Second ---> Predict Value originally set for Wednesday
 [[35, 23, 62, 31, 59],    #See Wednesday Value First
  [67, 53, 92, 80, 15]],   #See Thursday Values Second ---> Predict value originally set for Thursday
 [[67, 53, 92, 80, 15],    #And so on
  [60, 20, 10, 45, 47]]])

请注意数据是如何交错和三维的。现在只需创建一个 LSTM 网络。 Y 仍然是二维的,因为这是一个多对一的结构,但是您需要剪掉第一个值。

model = Sequential()
model.add(LSTM(hidden_dims,input_shape=(a2.shape[1],a2.shape[2]))
model.add(Dense(1))

这只是一个让您动起来的简短示例。有许多不同的设置可以工作(包括不使用 RNN),您需要为您的数据找到正确的设置。

关于python - 机器学习-如何使用过去的 20 行作为每个 Y 值的 X 的输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45764629/

相关文章:

javascript - 无法循环遍历 Bootstrap Popover 中的数据内容以显示 Python 列表数据

python - 多个try语句;返回对应的try语句而不是第一个输入

python - 根据另一列中的字符串内容在 pandas 中创建类别列

python - Pandas to_sql 将列类型从 varchar 更改为 text

python - 在新数据集中进行预测

image - 机器学习: Image classification into 3 classes (Dog or Cat or Neither) using Convolutional NN

python - 使用具有列名称和值的字典对 pandas 数据框进行单热编码

python - 尝试将 .dll 加载到 Python 时出错 "The specified module could not be found"

python - 计算一段时间内值增加和减少的最大总计

java - 使用 JAMA lib 在 Java 中实现逻辑回归的成本函数