machine-learning - 分类信息可以改善样本外类别的预测吗?

标签 machine-learning scikit-learn regression random-forest

假设我们有一些记录,其中包含与我们尝试预测的目标数字相关的多个特征。所有记录都遵循相同的一般基础模式,并且可以通过 RandomForestRegressor 很好地学习。现在假设所有记录都添加了分类特征,可以将其编码为附加信息以提高模型的预测能力。到目前为止,一切顺利。

但是现在假设我们想要使用在包括分类特征的数据上进行训练的回归器来预测具有未在数据中表示的新类别的记录训练数据。在这种情况下,分类信息是否变得无用(或更糟?)是否应该在没有可用分类信息的情况下重新训练模型以获得最佳泛化性能(因为它之前已适合不在此数据集中的类别)?或者,是否有某种可能的方法可以了解训练数据中的类别成员资格可以提高样本外类别的预测能力?

最佳答案

如果这些集合没有交集,则不应包含该变量。如果您希望在测试数据中看到一些原始值,那么您应该使用它。

关于machine-learning - 分类信息可以改善样本外类别的预测吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40458557/

相关文章:

`glmnet` 的岭回归给出的系数与我通过 "textbook definition"计算的不同?

machine-learning - 如何将可变长度字符串转换为向量?

python - 在基础 Tensorflow 2.0 中运行简单回归

python-3.x - 如何在管道中使用适当的 FunctionTransformer 制作 GridSearchCV?

python - 保留(pickle)自定义 sklearn 管道的推荐方法是什么?

r - R线性回归公式中的大写字母 "I"是什么意思?

c - 给定协方差矩阵和拟合系数,如何计算线性回归的 p 值

machine-learning - XGBoost 模型上的 GridSearchCV 给出错误

python - 缺少准确度数据的分类报告输出

python - 对压缩稀疏矩阵进行零填充(用于 NLP)?