假设我们有一些记录,其中包含与我们尝试预测的目标数字相关的多个特征。所有记录都遵循相同的一般基础模式,并且可以通过 RandomForestRegressor 很好地学习。现在假设所有记录都添加了分类特征,可以将其编码为附加信息以提高模型的预测能力。到目前为止,一切顺利。
但是现在假设我们想要使用在包括分类特征的数据上进行训练的回归器来预测具有未在数据中表示的新类别的记录训练数据。在这种情况下,分类信息是否变得无用(或更糟?)是否应该在没有可用分类信息的情况下重新训练模型以获得最佳泛化性能(因为它之前已适合不在此数据集中的类别)?或者,是否有某种可能的方法可以了解训练数据中的类别成员资格可以提高样本外类别的预测能力?
最佳答案
如果这些集合没有交集,则不应包含该变量。如果您希望在测试数据中看到一些原始值,那么您应该使用它。
关于machine-learning - 分类信息可以改善样本外类别的预测吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40458557/