python - 删除所有观测值具有相同值的列是否会影响我的模型?

标签 python r pandas machine-learning data-science

我的数据集中的一列对于所有观察/行具有相同的值。 我应该在构建机器学习模型时删除该列吗?

删除此列会影响我的模型/性能指标吗?

如果我用不同的常量值替换所有值,是否会改变模型/性能指标?

最佳答案

如果数据集中的一列具有相同的值,您可以删除该列,因为它不会对您的模型区分两个不同的标签有任何帮助,而另一方面,它甚至会对您的模型产生负面影响通过在数据中创建偏差来建立模型。

例如:假设您有两种不同的水果,例如一种是青苹果,一种是 Guava 。然后,这两种水果将具有相同的颜色,即“绿色”,所以这基本上意味着您无法根据颜色区分这两种水果,但如果它们是两种不同颜色的水果,您可以使用此功能可以区分它们。

希望它有助于澄清您应该如何处理具有相同观察集的此类列。

谢谢。

关于python - 删除所有观测值具有相同值的列是否会影响我的模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59209830/

相关文章:

r - apply(a, 3, function(x) { : dim(X) must have a positive length, apply 不适用于列表时出错

python - 使用 MultiIndex 沿多个维度对 Pandas 系列进行切片的有效方法是什么?

python - 在 Ubuntu 18.04 上升级到 python 3.x

r - 如何使用ggplot2在轴标签中同时使用上标和变量

python - Python 中数百万字符串列表的内存使用情况

用一些空字符串重新编码字符向量

python - 如何用匹配的名称替换列

python - 如何根据其他数据框替换一个 Pandas 数据框列值?

python - Gdata python 谷歌应用程序身份验证

python - 如何在 Windows 8 中为 python 设置 pip