python - Scikit NaN 或无限错误消息

标签 python scikit-learn nan

我正在从 csv 文件导入一些数据。该文件具有标有文本“NA”的 nan 值。 我导入数据:

X = genfromtxt(data, delimiter=',', dtype=float, skip_header=1)

我使用此代码将 nan 替换为先前计算的列平均值。

inds = np.where(np.isnan(X))
X[inds]=np.take(col_mean,inds[1])

然后我运行一些检查并得到空数组:

np.where(np.isnan(X))
np.where(np.isinf(X))

最后我运行了一个 scikit 分类器:

RF = ensemble.RandomForestClassifier(n_estimators=100,n_jobs=-1,verbose=2)
RF.fit(X, y)

并得到以下错误:

  File "C:\Users\m&g\Anaconda\lib\site-packages\sklearn\ensemble\forest.py", line 257, in fit
    check_ccontiguous=True)
  File "C:\Users\m&g\Anaconda\lib\site-packages\sklearn\utils\validation.py", line 233, in check_arrays
    _assert_all_finite(array)
  File "C:\Users\m&g\Anaconda\lib\site-packages\sklearn\utils\validation.py", line 27, in _assert_all_finite
    raise ValueError("Array contains NaN or infinity.")
ValueError: Array contains NaN or infinity.

知道为什么它告诉我有 NaN 或无穷大吗? 我读了this post并尝试运行:

RF.fit(X.astype(float), y.astype(float))

但我得到了同样的错误。

最佳答案

scikit-learn 的决策树将其输入转换为 float32 以提高效率,但您的值不适合该类型:

>>> np.float32(8.9932064170227995e+41)
inf

解决方案是在使用 sklearn.preprocessing.StandardScaler 拟合模型之前进行标准化。不要忘记在预测之前进行转换。您可以使用 sklearn.pipeline.Pipeline 将标准化和分类结合到一个对象中:

rf = Pipeline([("scale", StandardScaler()),
               ("rf", RandomForestClassifier(n_estimators=100, n_jobs=-1, verbose=2))])

或者,使用当前的开发版本/下一个版本:

rf = make_pipeline(StandardScaler(),
                   RandomForestClassifier(n_estimators=100, n_jobs=-1, verbose=2))

(我承认错误信息可以改进。)

关于python - Scikit NaN 或无限错误消息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21320456/

相关文章:

python - 奇怪的减少行为

python - 如何调试 PYGTK 程序

python - Pandas 替换为默认值

python - 如何在sklearn中同时获取预测值和误差指标

clr - Intel x64 FPU 中的 NaN 算法有多慢?

python - Pandas DataFrame - 根据其他列的值填充列的 NaN

python - 从两个曲面的交点求方程 y = y(x) z = z(x,y)

python - python中是否有用于均方根误差(RMSE)的库函数?

python - 理解梯度提升回归树的部分依赖

javascript - 帮助将变量添加到自身和随机数(javascript)