validation - Weka 是否在具有 10CV 的单独保留集上测试结果？

标签 validation machine-learning data-mining classification weka

我在 Weka 中使用了 10 倍交叉验证。

我知道这通常意味着数据分为 10 个部分，90% 进行训练，10% 进行测试，并且交替 10 次。

我想知道 Weka 是如何计算得出的 AUC 的。是所有 10 个测试集的平均值吗？或者(我希望这是真的)，它是否使用了保留测试集？我在 weka 书中似乎找不到对此的描述。

最佳答案

Weka 对测试结果进行平均。这是一个比坚持集更好的方法，我不明白你为什么希望采用这种方法。如果您保留测试集(多大大小？)，您的测试不会具有统计显着性，它只会说，对于训练数据上的最佳选择参数，您在任意一小部分数据上取得了一些分数。交叉验证(作为评估技术)的要点是轮流使用所有数据作为训练和测试，因此得到的指标是真实评估措施的预期值的近似值。如果您使用保留测试，它不会收敛到预期值(至少不会在合理的时间内)，更重要的是 - 您必须选择另一个常数(保留集有多大)为什么？)并减少用于训练的样本数量(由于训练和测试数据集较小的问题，开发了交叉验证)。

关于validation - Weka 是否在具有 10CV 的单独保留集上测试结果？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19098277/

上一篇：python - "Invalid Index to Scalar Variable"- 使用 Scikit Learn 时 "accuracy_score"

下一篇：machine-learning - 梯度上升收敛

相关文章：

javascript - 提交表单后如何重置表单和验证(AngularJS)

python - 在将 GridSearchCV 与 TimeSeriesSplit 结合使用时，如何正确使用 Scaler

matlab - Matlab 中用于分类的贝叶斯网络 (BNT)

machine-learning - StumbleUpon 推荐引擎的架构和基本组件

java - 如何将数据集分为训练集和测试集？

javascript - 表单验证检查两个字段是否相等

ios - 如何在 UITextFields 中设置验证

java - 允许特定特殊字符的正则表达式

python - 如何根据pandas中的时差为用户设置 session

python - 通过机器学习寻找日常模式