algorithm - 机器学习算法仅对正数据和未标记数据进行分类

标签 algorithm machine-learning weka

我正在尝试对仅具有积极特征和未标记数据的文本进行分类。我只希望算法能够识别积极数据,并将其他所有数据标记为消极数据。对此类数据进行分类的良好机器学习算法是什么?我尝试在 Weka 中使用不同的算法,但几乎所有分类器都会给出很多误报。

最佳答案

如果您认为未标记的数据大部分是负数,那么最好的办法可能是将所有未标记的数据标记为“负数”并运行您选择的分类器。请注意,如果您获得预测为阳性的未标记测试数据点,这并不意味着答案是错误的。您的一些未标记数据可能是积极的。因此很难判断你的分类器在你的环境中表现如何。如果您认为未标记的数据可能偏向于正面数据,那么您最好对正面数据使用所谓的“一类分类器”,包括一类 SVM 在内的流行示例。

关于algorithm - 机器学习算法仅对正数据和未标记数据进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22872898/

相关文章:

c++ - 我应该如何使用remove_if删除两个数字范围内的元素

machine-learning - 无人机虚拟测试环境

java weka stringtoword vector 没有正确计算单词出现次数

machine-learning - 使用 Weka 预测测试数据集中的文本数据标签?

arrays - 对可变长度项目/算法进行排序

algorithm - 快速倍增和斐波那契算法解释

python - AdaBoost 和维奥拉·琼斯 : What training set to use?

python - 值错误 : Unknown label type: 'continuous-multioutput' when fitting data

Weka 3-7 CSVLoader 不能使用 ";"(分号)作为字段分隔符

javascript - 仅使用 for 循环对数字进行排序