python - 分类变量的缩放

标签 python pandas normalization

  1. 分类变量是否需要在模型构建之前进行缩放? 我已经使用 StandardScalear 缩放了我所有的连续数值变量 现在所有连续变量都在 -1 和 1 之间,因为分类列是二进制的。

  2. 它将如何影响我的模型?

  3. 有人可以解释一下,缩放的分类变量将如何影响 DecisionTreeClassifier 中的节点拆分

最佳答案

当您对分类变量进行单热编码时,编码变量中的值变为 0 和 1。因此,编码变量不会对您的模型产生负面影响。您对变量进行编码并将它们传递给 ML 学习算法这一事实很好,因为您可以从 ML 模型中获得更多见解。

缩放数据集时,请务必注意两件事:

  1. 有些 ML 算法需要缩放数据,有些则不需要。最好只为对未缩放数据敏感的模型缩放数据,例如 kNN。

  2. 缩放数据的方法有多种。 StandardScaler() 是其中之一,但它容易受到异常值的影响。因此,请确保您使用的缩放方法最适合您的业务需求。您可以在此处了解有关不同缩放方法的更多信息:https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html

编码的分类变量包含 0 和 1 上的值。因此,甚至不需要对它们进行缩放。但是,当您选择在将数据与缩放敏感的 ML 模型一起使用之前缩放整个数据集时,缩放方法将应用于它们。

关于python - 分类变量的缩放,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63304223/

相关文章:

python - 在 Pandas 数据框中的两个日期时间列中获得差异

sql - 规范化自引用属性

matlab - 如何标准化 3-D 向量矩阵

python - 我的 csv 文件中的文本被作为原始字符串读取。它包含 "it\' s”而不是它的。我该如何清理它?

python - 过滤混合类型和对象的列

python - 将值设置为 DataFrame 切片的副本

python - Eurostat 的 pandas 数据挖掘

python - 如何正确检查滚动结束?

python - 使用颜色条时如何保持图像大小?

mysql - 规范化mysql数据库