python - 来自 scikit-learn 的 plot_partial_dependence() 为正确拟合的模型(例如 KerasRegressor 或 LGBMClassifier)错误地引发 NotFittedError

标签 python validation scikit-learn

我正在尝试使用 sklearn.inspection.plot_partial_dependence 创建部分依赖图在我使用 keras 和 keras sklearn 包装实用程序成功构建的模型上(参见下面的代码块)。包裹模型构建成功,可以使用fit方法,拟合后可以使用predict方法,结果达到预期。所有迹象都表明它是一个有效的估计量。但是,当我尝试从 sklearn.inspection 运行 plot_partial_dependence 时,我收到一些错误文本,暗示它不是一个有效的估计器,即使我可以证明它是。

我使用 sklearn 示例波士顿住房数据对其进行了编辑,使其更容易重现。

from sklearn.datasets import load_boston
from sklearn.inspection import plot_partial_dependence, partial_dependence
from keras.wrappers.scikit_learn import KerasRegressor
import keras
import tensorflow as tf
import pandas as pd

boston = load_boston()
feature_names = boston.feature_names
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = boston.target
mean = X.describe().transpose()['mean']
std = X.describe().transpose()['std']
X_norm = (X-mean)/std

def build_model_small():
    model = keras.Sequential([
        keras.layers.Dense(64, activation='relu', input_shape=[len(X.keys())]),
        keras.layers.Dense(64, activation='relu'),
        keras.layers.Dense(1)
        ])

    optimizer = keras.optimizers.RMSprop(0.0005)

    model.compile(loss='mse',
              optimizer=optimizer,
              metrics=['mae', 'mse', 'mape'])
    return model


kr = KerasRegressor(build_fn=build_model_small,verbose=0)
kr.fit(X_norm,y, epochs=100, validation_split = 0.2)
pdp_plot = plot_partial_dependence(kr,X_norm,feature_names)

就像我说的,如果我运行 kr.predict(X.head(20)) ,我得到 y 的 20 个预测X 的前 20 行的值,正如人们对有效估计器所期望的那样。

但是我从 plot_partial_dependence 得到的错误文本如下:
Traceback (most recent call last):
  File "temp_ML_tf_sklearn_postproc.py", line 79, in <module>
    pdp_plot = plot_partial_dependence(kr,X,labels[:-1])
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/sklearn/inspection/_partial_dependence.py", line 678, in plot_partial_dependence
    for fxs in features)
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 921, in __call__
    if self.dispatch_one_batch(iterator):
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 759, in dispatch_one_batch
    self._dispatch(tasks)
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 716, in _dispatch
    job = self._backend.apply_async(batch, callback=cb)
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/joblib/_parallel_backends.py", line 182, in apply_async
    result = ImmediateResult(func)
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/joblib/_parallel_backends.py", line 549, in __init__
    self.results = batch()
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 225, in __call__
    for func, args, kwargs in self.items]
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 225, in <listcomp>
    for func, args, kwargs in self.items]
  File "/home/mymachine/anaconda3/lib/python3.7/site-packages/sklearn/inspection/_partial_dependence.py", line 307, in partial_dependence
    "'estimator' must be a fitted regressor or classifier."
ValueError: 'estimator' must be a fitted regressor or classifier.

我查看了 plot_partial_dependence 的源代码,它有以下要说的。
首先,在文档字符串中,它表示第一个输入 estimator一定是...

  A fitted estimator object implementing :term:`predict`,
    :term:`predict_proba`, or :term:`decision_function`.
    Multioutput-multiclass classifiers are not supported.


我的估算器确实实现了.predict。

其次,在 errr 回溯中调用的行调用了一个检查器来检查它是回归量还是分类器:
if not (is_classifier(estimator) or is_regressor(estimator)):
    raise ValueError(
        "'estimator' must be a fitted regressor or classifier."
    )

我查看了 is_regressor() 的源代码,它是一个像这样的单行代码:
return getattr(estimator, "_estimator_type", None) == "regressor"

所以我试图通过做 setattr(mp,'_estimator_type','regressor') 来破解它。它只是说Attribute Error: can't set attribute ,所以这是一种无效的廉价解决方法。

我什至尝试了更骇人听闻的修复,并暂时注释掉了 _partial_dependence.py 源代码中的违规检查(我在上面复制的 if 语句),并得到以下错误:
Traceback (most recent call last):
  File "temp_ML_tf_sklearn_postproc.py", line 79, in <module>
    pdp_plot = plot_partial_dependence(kr,X,labels[:-1])
  File "/home/billy/anaconda3/lib/python3.7/site-packages/sklearn/inspection/_partial_dependence.py", line 678, in plot_partial_dependence
    for fxs in features)
  File "/home/billy/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 921, in __call__
    if self.dispatch_one_batch(iterator):
  File "/home/billy/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 759, in dispatch_one_batch
    self._dispatch(tasks)
  File "/home/billy/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 716, in _dispatch
    job = self._backend.apply_async(batch, callback=cb)
  File "/home/billy/anaconda3/lib/python3.7/site-packages/joblib/_parallel_backends.py", line 182, in apply_async
    result = ImmediateResult(func)
  File "/home/billy/anaconda3/lib/python3.7/site-packages/joblib/_parallel_backends.py", line 549, in __init__
    self.results = batch()
  File "/home/billy/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 225, in __call__
    for func, args, kwargs in self.items]
  File "/home/billy/anaconda3/lib/python3.7/site-packages/joblib/parallel.py", line 225, in <listcomp>
    for func, args, kwargs in self.items]
  File "/home/billy/anaconda3/lib/python3.7/site-packages/sklearn/inspection/_partial_dependence.py", line 317, in partial_dependence
    check_is_fitted(est)
  File "/home/billy/anaconda3/lib/python3.7/site-packages/sklearn/utils/validation.py", line 967, in check_is_fitted
    raise NotFittedError(msg % {'name': type(estimator).__name__})
sklearn.exceptions.NotFittedError: This KerasRegressor instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

这可以追溯到 sklearn 函数不认为该模型适合的问题,而实际上它确实适合。无论如何,在这一点上,我决定不再尝试任何更危险、更骇人听闻的修补源代码的方法。

我也试过通过 kr.fit(X,y,etc...)直接作为 plot_partial_dependence 的第一个参数。计算机旋转了几分钟,表明拟合实际上正在运行,但是当它尝试运行部分依赖图时,我得到了同样的错误。

另一个相当困惑的线索。我尝试在另一个 sklearn 函数中完全使用 keras/sklearn 包装的管道,看看它是否可以与任何 sklearn 实用程序一起使用。这一次,我做到了:
from sklearn.model_selection import cross_validate
cv_scores = cross_validate(kr,X_norm,y, cv=4, return_train_score=True, n_jobs=-1)`

它奏效了!所以我认为我对 keras.wrappers.scikit_learn.KerasRegressor 的使用没有本质上的问题。 .

这可能只是一种情况,我正在尝试做的是在 plot_partial_dependence 源代码中没有特别计划的边缘情况,我不走运,但我想知道是否有其他人看到过这样的问题并且有解决方案或解决方法。

顺便说一句,我正在使用 sklearn 0.22.1 和 Python 3.7.3 (Anaconda)。需要明确的是,我在 sklearn 构建的模型甚至管道上使用了 plot_partial_dependence。这个问题只发生在基于 keras 的模型中。非常感谢人们可能有的任何意见。

编辑:

此问题的先前版本涉及使用 StandardScaler() 构建管道,然后使用 KerasRegressor 包装对象。从那时起,我发现即使只使用 KerasRegressor 对象也会发生这种情况,即我已将问题隔离到该对象,而不是管道。因此,正如一位评论者所建议的那样,我将管道部分排除在外,以使其更简单、更切题。

最佳答案

出现此问题是因为非 scikit-learn 模型对象(例如 LightGBMRegressorLGBMClassifier )不包含以下划线结尾的属性,即 check_is_fitted()用作模型是否拟合的测试(参见 docs)。

因此,一个简单的解决方法是向您训练的模型对象添加一个名称以下划线结尾的虚拟属性:

test_model.dummy_ = "dummy"

您还可以通过调用 check_if_fitted() 来验证它是否有效。你自己:
from sklearn.utils import validation

validation.check_is_fitted(estimator=test_model)

关于python - 来自 scikit-learn 的 plot_partial_dependence() 为正确拟合的模型(例如 KerasRegressor 或 LGBMClassifier)错误地引发 NotFittedError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61373393/

相关文章:

python - 如何将第三方 ML 模型加载到无服务器函数中

python - 搜索电子邮件并打开取消订阅链接

python - 在满足x个条件后播放音频(Python-Pygame)

python - 从 v1.9 升级到 v1.10 后的 NoReverseMatch

python - BayesSearchCV 由于 fit_params 而无法工作

python - DBSCAN sklearn 非常慢

python - Python中findall和括号的使用

javascript - 用于验证时间戳的正则表达式

jquery - 使用 Jquery 验证我的表单

javascript正则表达式验证以匹配特定模式以从文本框接受