我有一个关于训练模型后特征缩放如何工作的问题。
假设神经网络模型通过外部温度训练来预测树的高度。
我的训练数据中的最低室外温度是 60F,最高温度是 100F。我将温度缩放到 0 到 1 之间并训练模型。我保存模型以供将来预测。两个月后,我想根据一些新数据进行预测。但这次我的测试数据中的最低和最高温度分别是 -20F 和 50F。
经过训练的模型如何处理这个问题?我在训练集中施加缩放以生成训练模型的范围与测试数据范围不匹配。
什么会阻止我硬编码一个范围以缩放到我知道数据始终在范围内,例如从 -50F 到 130F?我在这里看到的问题是我的模型是否具有许多功能。如果我对每个特征施加不同的硬缩放,那么使用特征缩放本质上是没有意义的,不是吗?
最佳答案
不同的比例不起作用。你的模型训练一种尺度,它学习一种尺度,如果你改变尺度,你的模型仍然会认为它是相同的尺度并做出非常不同的预测。
再次训练会覆盖之前学到的内容。
所以,是的,对你的缩放进行硬编码(最好直接在你的数据上,而不是在模型内部)。
为了获得高质量的结果,请使用您可以收集的所有数据进行训练。
关于machine-learning - 机器学习中面向 future 的特征扩展?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50650526/