python - 用于多标签分类的随机森林

标签 python machine-learning svm random-forest text-classification

我正在制作多标签文本分类的应用程序。 我尝试过不同的机器学习算法。

毫无疑问,具有线性核的 SVM 会获得最佳结果。

我也尝试过用Radom Forest算法进行排序,得到的结果很差,查全率和查准率都很低。

线性内核响应更好的结果这一事实让我知道不同的类别是线性可分离的。

随机森林结果如此低有什么原因吗?

最佳答案

随机森林的整体在许多领域和数据类型上表现良好。它们非常擅长减少方差误差,并且如果树保持足够简单,就不会过度拟合。

我希望森林的性能与具有线性内核的 SVM 相当。

SVM 往往会过度拟合,因为它不能从整体中受益。

如果您没有使用某种交叉验证。至少使用测试/训练方案来测量未见数据的性能,我可以看到您获得这种类型的结果。

返回并确保性能是根据未见过的数据进行测量的,并且更有可能您会看到 RF 的性能更具可比性。

祝你好运。

关于python - 用于多标签分类的随机森林,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31225935/

相关文章:

python - Keras 无法使用回调来存储检查点

mapping - 关于与核函数和支持向量机相关的术语的具体查询

python - 在 Theano (CNN) 中添加附加功能

python - 如何使用 Python 找到 Wally?

python - 我应该在洗牌和拆分后分别标准化训练和测试测试吗?

python - 无法理解 SVM 和 LR 中决策边界的绘制

r - R : Error in names(resamples) <- gsub ("^\\.", ""、names(resamples)) 中带有 SVM 的插入符号:尝试在 NULL 上设置属性

python - GitHub:如何检查我是否已经拥有当前的主分支 zip?

python - 在循环中更改/添加变量。 (Python 2.7)

python - 在 Django 中提供大文件(高负载)