由于该类的文档不是很清楚。我不明白我赋予它什么值(value)。
cross_val_score(estimator, X, y=None)
这是我的代码:
clf = LinearSVC(random_state=seed, **params)
cvscore = cross_val_score(clf, features, labels)
我不确定这是否正确,或者我是否需要提供 X_train 和 y_train 而不是特征和标签。
谢谢
最佳答案
即使在使用 cross_val_score 时,将测试集和训练集分开始终是一个好主意。其背后的原因是知识泄露。这基本上意味着,当您同时使用训练集和测试集时,您会将测试集中的信息泄漏到模型中,从而使模型产生偏差,从而导致错误的预测。
这里有详细的blog post关于同一个问题。
引用文献:
关于python - 我是给 cross_val_score() 整个数据集还是只提供训练集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52249158/