machine-learning - GridSearchCV评分参数: using scoring ='f1' or scoring=None (by default uses accuracy) gives the same result

标签 machine-learning statistics scikit-learn decision-tree grid-search

我使用的示例摘自《Mastering Machine Learning with scikit learn》一书。

它使用决策树来预测网页上的每个图像是否是一个 广告或文章内容。然后可以使用级联样式表隐藏被分类为广告的图像。该数据可从互联网广告数据集公开获得:http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements ,其中包含 3,279 张图像的数据。

以下是完成分类任务的完整代码:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.cross_validation import train_test_split
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
import sys,random

def main(argv):
    df = pd.read_csv('ad-dataset/ad.data', header=None)
    explanatory_variable_columns = set(df.columns.values)
    response_variable_column = df[len(df.columns.values)-1]


    explanatory_variable_columns.remove(len(df.columns.values)-1)
    y = [1 if e == 'ad.' else 0 for e in response_variable_column]
    X = df[list(explanatory_variable_columns)]

    X.replace(to_replace=' *\?', value=-1, regex=True, inplace=True)

    X_train, X_test, y_train, y_test = train_test_split(X, y,random_state=100000)

    pipeline = Pipeline([('clf',DecisionTreeClassifier(criterion='entropy',random_state=20000))])

    parameters = {
        'clf__max_depth': (150, 155, 160),
        'clf__min_samples_split': (1, 2, 3),
        'clf__min_samples_leaf': (1, 2, 3)
    }

    grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1,verbose=1, scoring='f1')
    grid_search.fit(X_train, y_train)
    print 'Best score: %0.3f' % grid_search.best_score_
    print 'Best parameters set:'
    best_parameters = grid_search.best_estimator_.get_params()
    for param_name in sorted(parameters.keys()):
        print '\t%s: %r' % (param_name, best_parameters[param_name])

    predictions = grid_search.predict(X_test)
    print classification_report(y_test, predictions)


if __name__ == '__main__':
  main(sys.argv[1:])

在 GridSearchCV 中使用 scoring='f1' 的结果如示例所示:

F1 SCORE Results

使用scoring=None(默认准确度测量)的结果与使用 F1 分数相同:

Accuracy SCORE Results

如果我没记错的话,通过不同的评分函数优化参数搜索应该会产生不同的结果。下面的案例表明,使用scoring=' precision'时会得到不同的结果。

使用评分='精度'的结果与其他两种情况不同。对于“召回”等也是如此:

Precision SCORE Results

为什么“F1”和 None(按默认精度)给出相同的结果?

已编辑

我同意 Fabian 和 Sebastian 的两个回答。问题应该是 param_grid 小。但我只是想澄清一下,当我使用完全不同的(不是此处示例中的)高度不平衡数据集 100:1(这应该会影响准确性)并使用逻辑回归时,问题激增。在这种情况下,“F1”和准确度也给出了相同的结果。

在本例中,我使用的 param_grid 如下:

parameters = {"penalty": ("l1", "l2"),
    "C": (0.001, 0.01, 0.1, 1, 10, 100),
    "solver": ("newton-cg", "lbfgs", "liblinear"),
    "class_weight":[{0:4}],
}

我猜参数选择也太小了。

最佳答案

我认为作者这个例子选得不太好。我可能在这里遗漏了一些东西,但是 min_samples_split=1 对我来说没有意义:这不是与设置 min_samples_split=2 相同吗,因为你无法拆分1 个样本——本质上来说,这是浪费计算时间。

From the documentation: min_samples_split: "The minimum number of samples required to split an internal node."

顺便说一句。这是一个非常小的网格,无论如何都没有太多选择,这可以解释为什么 accuracyf1 为您提供相同的参数组合,从而提供相同的评分表。

如上所述,数据集可能非常平衡,这就是为什么 F1 和准确度分数可能更喜欢相同的参数组合。因此,使用 (a) F1 分数和 (b) 准确度进一步查看 GridSearch 结果,我得出的结论是,在这两种情况下,深度 150 效果最佳。由于这是下限,因此它给您一个轻微的提示:较低的“深度”值可能效果更好。然而,我怀疑树在这个数据集上甚至没有走那么深(甚至在达到最大深度之前你就可能得到“纯”叶子)。

所以,让我们使用以下参数网格使用更合理的值重复实验

parameters = {
    'clf__max_depth': list(range(2, 30)),
    'clf__min_samples_split': (2,),
    'clf__min_samples_leaf': (1,)
}

最佳 F1 分数的最佳“深度”似乎在 15 左右。

Best score: 0.878
Best parameters set:
    clf__max_depth: 15
    clf__min_samples_leaf: 1
    clf__min_samples_split: 2
             precision    recall  f1-score   support

          0       0.98      0.99      0.99       716
          1       0.92      0.89      0.91       104

avg / total       0.98      0.98      0.98       820

接下来,让我们尝试使用“准确度”(或)作为评分指标:

> Best score: 0.967
Best parameters set:
    clf__max_depth: 6
    clf__min_samples_leaf: 1
    clf__min_samples_split: 2
             precision    recall  f1-score   support

          0       0.98      0.99      0.98       716
          1       0.93      0.85      0.88       104

avg / total       0.97      0.97      0.97       820

正如您所看到的,现在您会得到不同的结果,并且如果您使用“准确度”,“最佳”深度也会有所不同。

关于machine-learning - GridSearchCV评分参数: using scoring ='f1' or scoring=None (by default uses accuracy) gives the same result,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32889929/

相关文章:

python - 合并 Conv2D 和 Dense 模型会导致 "RuntimeError: You must compile your model before using it.",尽管已经编译了合并的模型

machine-learning - 如何标准化不同长度句子中单词的概率?

machine-learning - weka 中看不见的标称值

statistics - 为什么 Google Analytics(分析)显示的访问次数少于 One&One 统计数据?

scikit-learn - 如何找到对 PCA 贡献最大的特征?

python - 在 Python 中 pickle 类实例的字典

javascript - JavaScript 中的线性回归

linux - 测量内核空间开销的准确方法

python - 如何在sklearn中使用时间序列数据进行分类

python - 更新 scikit 多项式分类器