python - 如何使管道跳过该步骤(使用 "passthrough")以及 param_grid 中适用于该步骤的所有参数？

我正在使用 PCA 在 sklearn 中创建管道，并使用“passthrough”跳过此步骤。对于 PCA，我正在测试 n_components 参数的多个值。

from sklearn.datasets import make_regression
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

X_train, y_train = make_regression(n_samples=100, n_features=10)


param_grid = {
    'reduce_dim': [PCA(), 'passthrough'],
    'reduce_dim__n_components': [1,2,3]
}

pipeline = Pipeline(
        steps=[
            ('reduce_dim', None), 
            ('regressor', LinearRegression())
        ]
    )

grid_search = GridSearchCV(
    estimator=pipeline, 
    param_grid=param_grid, 
    verbose=10
)
grid_search.fit(X_train, y_train)

我想要实现的是使用 n_components=[1,2,3] 进行 PCA 的 3 次拟合，以及不使用 PCA 的 1 次拟合。

Fitting 5 folds for each of 4 candidates, totalling 20 fits

我得到的是 PCA 的 3 个拟合和没有 PCA 的 3 个拟合(我不需要在没有 PCA 的情况下测试 n_components 的所有三种可能性):

Fitting 5 folds for each of 6 candidates, totalling 30 fits

然后是一个运行时错误，基本上表明我无法将 n_components 值分配给“passthrough”(str 对象)

[CV 1/5; 4/6] START reduce_dim=passthrough, reduce_dim__n_components=1...
AttributeError: 'str' object has no attribute 'set_params'

如何使管道跳过该步骤(在这种情况下是 reduce_dim)以及适用于该步骤的所有参数？

我知道我可以像这样使用 param_grid:

param_grid = [
    {
        'reduce_dim': [PCA()],
        'reduce_dim__n_components': [1,2,3]
    },
    {}
]

但是可以用更优雅的方式来完成吗，因为在更复杂的场景中代码会变得非常困惑。

最佳答案

您想要的参数网格也可以在单个参数的单个字典中定义:

param_grid = {
    'reduce_dim' = [PCA(n_components=1), PCA(n_components=2), PCA(n_components=3), 'passthrough']
}

这样做的优点是避免定义多个可能不那么“困惑”的字典。

关于python - 如何使管道跳过该步骤(使用 "passthrough")以及 param_grid 中适用于该步骤的所有参数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68207661/

python - 如何使管道跳过该步骤(使用 "passthrough")以及 param_grid 中适用于该步骤的所有参数？

上一篇：c# - 如何从另一个项目的appsettings文件读取连接字符串

下一篇：node.js - Docker 镜像构建但在浏览器中看不到