我的数据集中的一列对于所有观察/行具有相同的值。 我应该在构建机器学习模型时删除该列吗?
删除此列会影响我的模型/性能指标吗?
如果我用不同的常量值替换所有值,是否会改变模型/性能指标?
最佳答案
如果数据集中的一列具有相同的值,您可以删除该列,因为它不会对您的模型区分两个不同的标签有任何帮助,而另一方面,它甚至会对您的模型产生负面影响通过在数据中创建偏差来建立模型。
例如:假设您有两种不同的水果,例如一种是青苹果,一种是 Guava 。然后,这两种水果将具有相同的颜色,即“绿色”,所以这基本上意味着您无法根据颜色区分这两种水果,但如果它们是两种不同颜色的水果,您可以使用此功能可以区分它们。
希望它有助于澄清您应该如何处理具有相同观察集的此类列。
谢谢。
关于python - 删除所有观测值具有相同值的列是否会影响我的模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59209830/