machine-learning - 关于使用机器学习工具 Weka 的问题

标签 machine-learning data-mining classification weka

我正在使用 Weka 的资源管理器功能进行分类。

所以我有我的 .arff 文件,其中有 2 个 NUMERIC 值的特征,我的类是二进制 0 或 1(例如 {0,1})。

示例:

@RELATION summary
@ATTRIBUTE feature1 NUMERIC
@ATTRIBUTE feature2 NUMERIC
@ATTRIBUTE class {1,0}

@DATA
23,11,0
20,100,1
2,36,0
98,8,1
.....

我加载此 .arff 文件,使用 10 倍交叉验证(无测试文件),并选择 NaiveBayes,然后对数据进行分类,它给出:5 个错误标记,100 个正确标记。到目前为止一切顺利。

现在,我显着更改了 .arff 文件(为我的特征属性提供完全随机的值)。重复上述操作,分类时我得到了完全相同的统计数据。

我尝试对我的 .arff 文件进行更多更改,使用不同的分类算法。尽管如此,无论我给 .arff 文件赋予什么值,统计数据都是完全相同的(在相同的算法内)。

我在这里做错了什么吗?

最佳答案

如果没有更多信息,很难说,但我有两个建议:

  1. 两个类别的相对比例是多少?是5到100吗?许多算法不能很好地处理高度倾斜的类标签分布。

  2. 只是一种预感,但请尝试将类标签从数字更改为字符串(例如“class1”和“class2”)。 Weka 将这些称为“名义”属性,因此可能不允许使用数字。

关于machine-learning - 关于使用机器学习工具 Weka 的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1806827/

相关文章:

tensorflow - 如何在 Tensorflow 对象检测 API 中重用分类层

weka - 具有标称属性 weka 的线性回归

machine-learning - 理解论文中关于 VGGNet 的一段话

php - 推荐用于高效查找/评估关联规则的数据结构或表模式?

twitter - twitter 有停用词列表吗?

machine-learning - 如何使用视频数据集训练分类器

python - 如何在 python 中使用 kNN 的动态时间扭曲

python - T5 微调模型输出 而不是大括号和其他特殊字符

machine-learning - lstm(256) + lstm(256) 和 lstm(512) 有什么区别?

python - 自定义模型移至 scikit-learn