machine-learning - 仅使用新到达的数据重新训练时间序列(Keras)(不是从头开始进行新训练)

简介:我每周都会使用 Keras 训练很多时间序列模型。

问题:训练所有这些模型变得越来越困难，因为它们需要 AWS 上更多的时间和资源，而我正在寻找避免从头开始训练的方法。

我所知道的:我可以将模型保存为 .h5 并继续对新到达的时间序列数据进行训练。

我不知道的是:这样做是否安全？如果我只是恢复模型训练而不从头开始，我担心模型完整性会存在隐患。

最佳答案

如果“仅”使用新数据进行训练，您将很快丢弃模型先前的所有知识。它会学习新数据并忘记旧数据，也可能过度拟合。不要这样做。

另一方面，如果您从上一点继续，添加新数据并保留旧数据，则您的模型可能已经过于偏向于旧数据并且没有尽其所能地学习新数据(但这取决于很多因素，例如新数据的差异程度以及新数据与旧数据的比例)

所以，对于第二种情况，其实很难回答，你可以多尝试几次，看看从头开始是否会比重新开始更好。无论如何，不要从训练集中删除旧数据(除非您认为该数据现在与您的项目无关)。

关于machine-learning - 仅使用新到达的数据重新训练时间序列(Keras)(不是从头开始进行新训练)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59580039/

相关文章：

algorithm - 寻找(子)时间序列的(非常)快速近似匹配