machine-learning - 属性的特征缩放

标签 machine-learning artificial-intelligence classification data-processing

我使用两个特征来训练分类模型,即特征 A 和 B。特征 A 比特征 B 更重要。特征 A 具有序数数据,因此我对其进行了标签编码,其值范围从 1 到 5。特征 B也是一种分类特征,并且在标签编码后对其进行热编码

由于上述编码,特征 A 的值范围为 1 到 5,而特征 B 具有多列,每列值为 0 或 1。

现在,在我的模型训练之后,我的模型过于偏向特征 A,因为它的值范围从 1 到 5,而对特征 B 的关注却很少。

现在,如果我使用标准标量进行特征缩放,特征 A 的值将在 -1 到 1 之间,因此在模型训练之后,特征 B 比特征 A 更能做出决定。

是否有更好的方法来对两个特征进行特征缩放,以便特征 A 具有更多边缘,但又不会导致特征 B 被完全忽略

最佳答案

一旦进行热编码,您将仅拥有一组功能。模型不知道这些特征属于 A 还是 B。然后您可以计算特征重要性或者运行 Feature Selection Algorithms以便提高效率。

但是,如果您认为功能 A 更重要,请尝试缩放到除 -1 到 1 之外的其他限制,以便为功能 A 保留比功能 B 更多的列。或者相应地缩放两者。但同样,模型仅将其视为一组特征,因此请尝试更改模型/参数,而不是专注于此以提高性能。

关于machine-learning - 属性的特征缩放,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59573060/

相关文章:

php - 删除常用词但当要求返回可理解的内容时?

machine-learning - 分类或回归算法模型的相关系数或特征重要性

matlab - matlab中的贝叶斯分类

python - 使用 Python API 进行逻辑回归多类分类

perl - 了解元素的顺序

c - TicTacToe 的 Minimax 算法无法正常工作

artificial-intelligence - 如何检查一个游戏对象是否可以看到另一个?

amazon-web-services - 在AWS上加载预训练模型

python - RNN LSTM估计正弦波频率和相位

python - tensorflow 提要列表功能(多热)到 tf.estimator