validation - Weka 是否在具有 10CV 的单独保留集上测试结果?

标签 validation machine-learning data-mining classification weka

我在 Weka 中使用了 10 倍交叉验证。

我知道这通常意味着数据分为 10 个部分,90% 进行训练,10% 进行测试,并且交替 10 次。

我想知道 Weka 是如何计算得出的 AUC 的。是所有 10 个测试集的平均值吗?或者(我希望这是真的),它是否使用了保留测试集?我在 weka 书中似乎找不到对此的描述。

最佳答案

Weka 对测试结果进行平均。这是一个比坚持集更好的方法,我不明白你为什么希望采用这种方法。如果您保留测试集(多大大小?),您的测试不会具有统计显着性,它只会说,对于训练数据上的最佳选择参数,您在任意一小部分数据上取得了一些分数。交叉验证(作为评估技术)的要点是轮流使用所有数据作为训练和测试,因此得到的指标是真实评估措施的预期值的近似值。如果您使用保留测试,它不会收敛到预期值(至少不会在合理的时间内),更重要的是 - 您必须选择另一个常数(保留集有多大)为什么?)并减少用于训练的样本数量(由于训练和测试数据集较小的问题,开发了交叉验证)。

关于validation - Weka 是否在具有 10CV 的单独保留集上测试结果?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19098277/

相关文章:

javascript - 提交表单后如何重置表单和验证(AngularJS)

python - 在将 GridSearchCV 与 TimeSeriesSplit 结合使用时,如何正确使用 Scaler

matlab - Matlab 中用于分类的贝叶斯网络 (BNT)

machine-learning - StumbleUpon 推荐引擎的架构和基本组件

java - 如何将数据集分为训练集和测试集?

javascript - 表单验证检查两个字段是否相等

ios - 如何在 UITextFields 中设置验证

java - 允许特定特殊字符的正则表达式

python - 如何根据pandas中的时差为用户设置 session

python - 通过机器学习寻找日常模式