python - 如何使用 RMSE 和 MAE 性能指标比较随机森林(无缩放)和 LSTM(有缩放)

标签 python machine-learning scikit-learn lstm random-forest

我是机器学习的新手,正在尝试使用随机森林、简单线性回归和 NN(LSTM) 等多种模型进行比特币价格预测。

据我所知,随机森林和线性回归不需要缩放输入特征,而 LSTM 确实需要缩放输入特征。

如果我们比较两种算法(有缩放和没有缩放)的 MAE 和 RMSE,结果肯定会不同,我无法比较哪个模型表现更好。

我现在应该如何比较这些模型的性能?


更新 - 添加我的代码

数据

bitcoinData = pd.DataFrame([[('2013-04-01 00:07:00'),93.25,93.30,93.30,93.25,93.300000], [('2013-04-01 00:08:00'),100.00,100.00,100.00,100.00,93.300000], [('2013-04-01 00:09:00'),93.30,93.30,93.30,93.30,33.676862]], columns=['time','open', 'close', 'high','low','volume'])
bitcoinData.time = pd.to_datetime(bitcoinData.time)
bitcoinData = bitcoinData.set_index(['time'])
x_train = train_data[['high','low','open','volume']]
y_train = train_data[['close']]
x_test = test_data[['high','low','open','volume']]
y_test = test_data[['close']]

最小-最大缩放器

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(0, 1))
scaler1 = MinMaxScaler(feature_range=(0, 1))
x_train = scaler.fit_transform(x_train)
y_train = scaler1.fit_transform(y_train)
x_test = scaler.transform(x_test)
y_test = scaler1.transform(y_test)

均方误差计算

from math import sqrt
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
print("Root Mean Squared Error(RMSE) : ", sqrt(mean_squared_error(y_test,preds)))
print("Mean Absolute Error(MAE) : ", mean_absolute_error(y_test,preds))
r2 =  r2_score(y_test, preds)
print("R Squared (R2) : ",r2)

最佳答案

您缩放输入数据,而不是输出数据。 输入数据与您的错误计算无关。

如果您真的想缩放 lstm 输出数据,只需以与其他分类器相同的方式缩放它。

编辑:

来自您的评论:

I only scaled my input data in LSTM

不,你不知道。您确实转换了输出数据。从我读到的内容来看,我假设你只为神经网络转换它。

所以你的 lstm y 数据大约小 100 倍 --> squared_error 所以你得到 100*100 = 10.000 这大致是你的神经网络比随机森林表现“更好”的因素。

选项 1:

删除那些树线:

scaler1 = MinMaxScaler(feature_range=(0, 1))

y_train = scaler1.fit_transform(y_train)

y_test = scaler1.transform(y_test)

不要忘记使用可以将值输出到+无穷大的最后一层

选项 2:

也为您的其他分类器缩放数据并比较缩放后的值。

选项 3:

对您的预测使用 MinMaxScaler 的 inverse_transform(pred) 方法,并使用 inverse_transformed 预测和未转换的 y_test 数据计算您的误差。

关于python - 如何使用 RMSE 和 MAE 性能指标比较随机森林(无缩放)和 LSTM(有缩放),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57953911/

相关文章:

python - 当用户选择输入 'x' 次时,如何创建变量?

python - 为什么子类化元组和子类化列表之间存在这种差异?

machine-learning - Azure 机器学习中的图像分类

python - 如何在 pyspark 2.3 中的二元问题(BinaryClassificationEvaluator)中为 CrossValidator 评估器使用 f1-score

python - pytest:从代码而不是命令行运行测试

python - PySide 在线程之间发出 None 时使 Python 崩溃

python - 用于噪声序列的 Tensorflow LSTM

python - 返回概率的python中的多类线性SVM

python - 在 scikit learn 中组合随机森林模型

machine-learning - sklearn分类概率或置信度