我正在使用 Scikit Learn 中的决策树对数据集进行回归。
我得到了很好的结果,但我担心的一个问题是许多特征的相对不确定性非常高。
我试过只删除具有高不确定性的案例,但这会显着降低模型的性能。
特征本身是通过实验确定的,因此它们具有相关的实验不确定性。数据本身没有噪声。
所以我的问题是,是否有一种好的方法可以将与特征相关的不确定性纳入机器学习算法?
感谢大家的帮助!
最佳答案
如果不确定的特征正在改进建议一起使用的算法,那么它们是有用的。但是,其中一些可能不是。我的建议是摆脱那些不会改进算法的功能。您可以使用贪心特征消除算法。
http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html
这首先针对模型中的所有特征训练模型,然后去除被认为最无用的特征。它再次训练模型,但少了一个特征。
希望对你有帮助
关于python - 如何将特征的不确定性纳入机器学习算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45444056/