我有一个带有 2 个标签的数据集,我知道这 2 个标签之间存在很强的相关性。但是,当我使用不考虑相关性的 scikit 多学习二进制相关性时,我得到的结果与考虑这些标签相关性的 Labelpowerset 分类器非常相似?对此有何评论?
此外我使用 http://scikit-multilearn.github.io/
我不知道它的有效性如何??
最佳答案
我是 scikit-multilearn 的作者。为了回答您的问题,我需要查看标签组合图。两个标签产生 4 种组合,但如果组合 [1,0] 和 [0,1] 在 [0,0] 或 [1,1] 的情况下占主导地位,那么您可能会遇到标签 Powerset 无法正确学习相关案例的基本分类器。它还取决于您使用哪种措施来验证性能?
关于scikit-learn - 尽管标签相关性很强,但为什么多标签性能结果与独立性能结果相同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31093145/