csv - 特征缩放/归一化中的最小值和最大值?

标签 csv machine-learning normalization feature-extraction

我对机器学习相当陌生,正在研究使用线性特征缩放来预处理我的训练数据。

我的问题是,给定一个 .csv 文件,其中每列数据代表一个特征,我应该使用什么 minX 和 maxX 值来标准化我的数据?

更具体地说,我应该分别标准化每个特征(使用每列的 minX/maxX 值),一次标准化所有数据(从整个数据集中找到 minX/maxX,因此所有特征),还是标准化逐个输入的基础?

最佳答案

分别标准化每个特征。您想要的是将每个特征的范围限制在明确定义的区间内(即 [0,1])。 仅使用训练数据集中的数据。

如果您使用最小-最大缩放,您将获得较小的 STD,这还不错。是否使用 Min-Max 或标准化(mu=0,std=1)取决于您需要执行的应用程序。

关于csv - 特征缩放/归一化中的最小值和最大值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39683092/

相关文章:

mysql - 数据归一化无法达到3nf

python - 400 读取数据时出错,错误消息: CSV table encountered too many errors, 放弃。行数:29274;错误:1

c# - 从 CSV 文件同步数据库

r - 同一文件输入的多个分隔符 R

python - Sklearn SGDClassifier 部分拟合

machine-learning - 动量 0.9 和 0.99 新元

mysql - SQL 数据库中的非规范化或规范化(继承数据)

c# - 字符串英语化?

javascript - 将 CSV 行转换为 Javascript 对象

python - 使用 scikit-learn 绘制接收器操作特性时出现问题?