我正在制作多标签文本分类的应用程序。 我尝试过不同的机器学习算法。
毫无疑问,具有线性核的 SVM 会获得最佳结果。
我也尝试过用Radom Forest算法进行排序,得到的结果很差,查全率和查准率都很低。
线性内核响应更好的结果这一事实让我知道不同的类别是线性可分离的。
随机森林结果如此低有什么原因吗?
最佳答案
随机森林的整体在许多领域和数据类型上表现良好。它们非常擅长减少方差误差,并且如果树保持足够简单,就不会过度拟合。
我希望森林的性能与具有线性内核的 SVM 相当。
SVM 往往会过度拟合,因为它不能从整体中受益。
如果您没有使用某种交叉验证。至少使用测试/训练方案来测量未见数据的性能,我可以看到您获得这种类型的结果。
返回并确保性能是根据未见过的数据进行测量的,并且更有可能您会看到 RF 的性能更具可比性。
祝你好运。
关于python - 用于多标签分类的随机森林,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31225935/