python - sklearn : use Pipeline in a RandomizedSearchCV?

标签 python numpy machine-learning scikit-learn

我希望能够在 sklearn 的 RandomizedSearchCV 构造中使用管道。但是现在我认为只支持估算器。这是我希望能够执行的操作的示例:

import numpy as np

from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler    
from sklearn.pipeline import Pipeline

# get some data
iris = load_digits()
X, y = iris.data, iris.target

# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000], 
          'gamma': [0.001, 0.0001], 
          'kernel': ['rbf', 'linear'],}

# create pipeline with a scaler 
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)

# do search
search = RandomizedSearchCV(pipeline, 
param_distributions=param_dist, n_iter=50)
search.fit(X, y)

print search.grid_scores_

如果你只是这样运行,你会得到如下错误:

ValueError: Invalid parameter kernel for estimator Pipeline

在 sklearn 中有没有好的方法来做到这一点?

最佳答案

RandomizedSearchCV,以及GridSearchCV支持管道(事实上,它们独立于它们的实现,并且管道被设计等同于通常的分类器)。

问题的关键很简单,如果您认为应该搜索哪些参数。由于管道由许多对象组成(多个转换器 + 一个分类器),因此可能需要为分类器和转换器找到最佳参数。因此,您需要以某种方式区分从哪里获取/设置属性。

所以你需要做的是说你想找到一个值,比如说,不仅仅是一些抽象的 gamma (管道根本没有),而是 管道分类器的 gamma,在您的案例中称为 rbf_svm(这也证明了名称的必要性)。这可以使用双下划线语法来实现,该语法在嵌套模型的 sklearn 中广泛使用:

param_dist = {
          'rbf_svm__C': [1, 10, 100, 1000], 
          'rbf_svm__gamma': [0.001, 0.0001], 
          'rbf_svm__kernel': ['rbf', 'linear'],
}

关于python - sklearn : use Pipeline in a RandomizedSearchCV?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28178763/

相关文章:

c++ - 编程语言包装器

通过 pip 安装 Python GDAL 失败

python - 如何从无冗余傅立叶变换(例如 PyTorch)到冗余(完整)傅立叶变换?

python - 如何在文本分类中使用朴素贝叶斯预测所需类别

python - 为什么 classifier.predict() 方法期望测试数据中的特征数量与训练数据中的特征数量相同?

python - For 循环中的整个字符串,而不仅仅是逐个字符

python - 将 gevent.evnet 与 celery.task 结合使用

python - 调整具有特定值的数组的大小

python - np.random.choice 在直方图中有一个缺口

python - RepeatedKFold 到底是什么意思?