我对机器学习相当陌生,正在研究使用线性特征缩放来预处理我的训练数据。
我的问题是,给定一个 .csv 文件,其中每列数据代表一个特征,我应该使用什么 minX 和 maxX 值来标准化我的数据?
更具体地说,我应该分别标准化每个特征(使用每列的 minX/maxX 值),一次标准化所有数据(从整个数据集中找到 minX/maxX,因此所有特征),还是标准化逐个输入的基础?
最佳答案
分别标准化每个特征。您想要的是将每个特征的范围限制在明确定义的区间内(即 [0,1])。 仅使用训练数据集中的数据。
如果您使用最小-最大缩放,您将获得较小的 STD,这还不错。是否使用 Min-Max 或标准化(mu=0,std=1)取决于您需要执行的应用程序。
关于csv - 特征缩放/归一化中的最小值和最大值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39683092/