java - weka 中模型的奇怪结果

标签 java weka

我正在使用 Weka Gui - Explorer 和 我想根据{男性,女性}类对我的数据进行分类。 我使用 MultiBoostAB 分类器和 REPTree 分类器作为基础。 我正在尝试使用训练集(557 个实例)评估分类器的准确性

然后是一个包含大约 300 个属性的测试集(200 个实例)。准确率为 83.5% - 167 个正确分类的实例 满分 200,kappa 统计值为 0.67。我保存了这个模型并用它来预测

其他未知数据的标签(男性或女性)获得几乎相同的良好结果。 然后我将训练集的大小增加到 1000 个实例,看看是否 我可以提高分类器的准确率。我得到以下结果:

  • 运行 360 个实例的测试集 --> 正确分类的实例百分比为 87.0423,kappa 统计数据为 0,7335
  • 运行 200 个实例的测试集 --> 59% 正确分类的实例和 kappa 统计数据 0,18

(它预测我的大部分数据为女性) 为什么当我增加训练集的大小时我的模型会变得更糟?

最佳答案

好吧,如果没有实际查看和分析你的训练数据,这真的很难说。

我的第一个猜测是,您添加到训练集中的额外 443 个实例非常不同,因此分类器学习完全不同的模型。

如果仅在这 443 个实例上训练模型会发生什么?如果您的测试集的准确性更差,您就知道您的训练数据可能不是最好的泛化数据。

关于java - weka 中模型的奇怪结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16714739/

相关文章:

java - Java原始陷阱

java - 加载相关实体时实体图被忽略

java - 无法在 weka java *WEKA*DUMMY*STRING*FOR*STRING*ATTRIBUTES* 中获取类标签

database - 如何将数据分成训练集和测试集?

mysql - 将 SQL 数据库导出到 CSV 文件并与 WEKA 一起使用

machine-learning - Weka:10 倍 CV 中每次折叠的结果

java - 使用 Weka 进行文本分类

java - 使用mockito匹配器anyList()和any(List.class)时的不同结果

java - Mule 3.7 Apikit CORS - 访问控制允许来源

java - 使用 "\\\\"将 '\' 与 Java 中的正则表达式匹配是最易读的方式吗?