我想使用 GridSearchCV 来确定分类器的参数,并且使用管道似乎是一个不错的选择。
该应用程序将用于使用词袋特征进行图像分类,但问题是根据是否使用训练或测试示例,存在不同的逻辑管道。
对于每个训练集,KMeans 必须运行以生成将用于测试的词汇表,但对于测试数据,不运行 KMeans 进程。
我看不出如何为管道指定这种行为差异。
最佳答案
您可能需要从 KMeans
类派生并重写以下方法才能使用您的词汇逻辑:
fit_transform
只会在训练数据上调用将在测试数据上调用
transform
也许类派生并不总是最好的选择。您还可以编写自己的转换器类,该类包装对嵌入式 KMeans 模型的调用,并提供所需的 fit
/fit_transform
/transform
API第一阶段的 Pipeline
类。
关于python - 使用自定义管道进行交叉验证 scikit-learn,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13057113/