我遇到时间序列数据的分类问题。
每个示例都有 10 个变量,这些变量以不规则的间隔进行测量,最终对象被分类为 2 个可能类别中的 1 个类别(二元分类)。
在训练期间我只有示例的最后一课可以学习。但是当给出一个新的例子时,我想在每个时间戳进行预测(以在线方式)。因此,如果新示例有 25 个测量值,我想对其类别进行 25 个预测;每个时间戳一个。
我目前实现这一点的方法是使用 10 个变量的测量值的最小值、平均值和最大值作为分类特征。这是最优的吗?有什么更好的方法。
最佳答案
如果您必须在每个时间戳进行预测,那么这不会成为时间序列问题(除非您计划使用先前观察的序列来进行下一个预测,在这种情况下您将需要训练一个基于序列的模型)。假设您只能根据您观察到的最终数据来训练模型,可以有很多方法,但我建议您使用具有大量树并且每棵树中有 3 或 4 个变量的随机森林。这样,即使某些变量没有为您提供所需的输入,其他树仍然可以做出相当准确的预测。除此之外,还可以有许多集成方法。
您当前所做的方式可能是非常宽松的近似且实用,但没有太大的统计意义。
关于python - 通过时间序列实现在线学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33168836/