machine-learning - 如何更加重视机器学习中的某些特征？

如果使用像 scikit-learn 这样的库，如何为 SVM 这样的分类器的输入中的某些特征分配更多权重？这是人们做还是不做的事情？

最佳答案

首先 - 你可能不应该这样做。机器学习的整个概念是使用统计分析分配最佳权重。您在这里干扰了整个概念，因此您需要真正强有力的证据来证明这对于您尝试建模的过程至关重要，但由于某种原因，您的模型目前缺少它。

话虽这么说，但没有通用的答案。这纯粹是特定于模型的，其中一些允许您对特征进行加权 - 在随机森林中，您可以对分布进行偏置，从中采样特征以分析您感兴趣的特征；在 SVM 中，只需将给定特征乘以一个常数就足够了 - 还记得当你被告知要在 SVM 中标准化特征时吗？这就是为什么 - 您可以使用特征的规模来“引导”您的分类器朝向给定的特征。具有高值(value)的将被优先考虑。这实际上适用于大多数线性权重范数正则化模型(正则化逻辑回归、岭回归、套索等)。

关于machine-learning - 如何更加重视机器学习中的某些特征？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38034702/

上一篇：R-XGBoost : Error building DMatrix

下一篇：r - 获取随机森林中各个树的重要性

python - sklearn中 'transform'和 'fit_transform'有什么区别

python - 如何在单次训练期间保存和快照机器学习模型？

python - 管道在 sklearn python 中给出不同的答案

python - 如何在 Spark MLlib 中执行回归分析以确定电信行业的客户流失？

machine-learning - 所有输入数组和目标数组必须具有相同数量的样本。”- 在单个图像上进行训练以检查模型在 keras 中是否有效

文本分类分类指针

scala - 从文本中高效提取 WikiData 实体

python - 如何访问管道中包含的模型中的最佳估计器参数？

python - 在训练中使用 One-Hot-Encoding 后获得数据点的正确形状以使用回归模型进行预测