machine-learning - GridSearchCV + StratifiedKfold(如果是 TFIDF)

标签 machine-learning scikit-learn cross-validation tf-idf grid-search

我正在研究一个分类问题,我需要预测文本数据的类别。我需要对我的分类模型进行超参数调整,我正在考虑使用 GridSearchCV 。我还需要执行 StratifiedKFold ,因为我的数据不平衡。我知道如果我们有多类分类,GridSearchCV 内部会使用 StratifiedKFold

我已阅读 here对于 TfidfVectorizer,我们应用 fit_transform 来训练数据,并且仅转换为测试数据。

这就是我在下面使用 StratifiedKFold 所做的事情。

skf = StratifiedKFold(n_splits=5, random_state=5)

for train_index, test_index in skf.split(X, y):
    iteration = iteration+1
    print(f"Iteration number {iteration}")
    X_train, y_train = X.iloc[train_index], y.iloc[train_index]
    X_test, y_test = X.iloc[test_index], y.iloc[test_index]

    train_tfid = tfidf_vectorizer.fit_transform(X_train.values.astype('U'))
    test_tfid = tfidf_vectorizer.transform(X_test.values.astype('U'))

    svc_model = linear_model.SGDClassifier()
    svc_model.fit(train_tfid, y_train.values.ravel())

我得到的准确性/f1 不好,因此考虑使用 GridSearchCV 进行超参数调整。 在 GridSearchCV 中我们这样做

c_space = np.logspace(-5, 8, 15) 
param_grid = {'C': c_space} 

# Instantiating logistic regression classifier 
logreg = LogisticRegression() 

# Instantiating the GridSearchCV object 
logreg_cv = GridSearchCV(logreg, param_grid, cv = 5) 

logreg_cv.fit(X, y) 

根据我的说法,logreg_cv.fit(X, y) 会在内部将 X 分割为 X_trainX_test k 次,然后就可以了预测为我们提供最佳估计器。

就我而言,X 应该是什么?如果是 fit_transform 之后生成的 X,那么在内部,当 X 分为训练和测试时,测试数据已经经过 fit_transform 但理想情况下它应该只经过变换。

我担心的是,就我而言,在 GridSearchCV 内部,我如何能够控制 fit_transform 仅应用于训练数据,而变换应用于测试数据(验证数据)。

因为如果它在内部将 fit_transform 应用于整个数据,那么这不是一个好的做法。

最佳答案

这正是您应该在 GridSearchCV 中使用 Pipeline 的场景。首先,创建一个包含数据预处理、特征选择和模型等所需步骤的管道。一旦您在此管道上调用GridSearchCV,它将仅对训练折叠进行数据处理,然后与模型进行拟合。

阅读here了解有关 sklearn 中模型选择模块的更多信息。

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV
import numpy as np

cats = ['alt.atheism', 'sci.space']
newsgroups_train = fetch_20newsgroups(subset='train',
                                      remove=('headers', 'footers', 'quotes'),
                                      categories=cats)
X, y = newsgroups_train.data, newsgroups_train.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1, stratify=y)


my_pipeline = Pipeline([
    ('vectorizer', CountVectorizer(stop_words='english')),
    ('clf', LogisticRegression())
])


parameters = {'clf__C': np.logspace(-5, 8, 15)}

grid_search = GridSearchCV(my_pipeline, param_grid=parameters,
                           cv=10, n_jobs=-1, scoring='accuracy')
grid_search.fit(X_train, y_train)

print(grid_search.best_params_)
# {'clf__C': 0.4393970560760795}

grid_search.score(X_test, y_test)
# 0.8981481481481481

关于machine-learning - GridSearchCV + StratifiedKfold(如果是 TFIDF),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61675761/

相关文章:

machine-learning - 即使在对数据集进行过采样后性能也非常低

machine-learning - weka 中的测试文件是否需要与训练相同或更少数量的特征?

java - 将自定义字段添加到 Spark ML LabeldPoint

python - 如何使用 sklearn 在 Python 中将 N*M 矩阵居中

python - sklearn 随机状态不是随机的

python - 交叉验证返回分数超过 1.0 我该怎么办?

python - Python 中的集成

python - 在 tensorflow 中使用自训练模型标记图像

python - 使用 sklearn 获取实时数据

python - 如何在 scikit learn 中为 cross_validate 制定自定义评分指标?