我正在寻找设置 multi-output decision tree使用 Python SciKit 库。然而我面临的问题是它不是一个简单的“n_outputs”分类。有些示例将有 3 个输出,有些是 4 个,有些是 5 个。我不确定将其传达给库的最佳方法是什么。
我正在考虑使用最大输出数并进行“无输出”分类。因此,如果我训练一个集合,其中每个样本都被强制为 5 个输出,则任何最初只有 3 个分类的样本都将通过添加“无输出”分类而更改为 5 个。
你认为这可行吗?还有其他方法可以制作输出数量可变的多输出决策树吗?
最佳答案
听起来您正在尝试进行多标签分类,而不是多输出分类。多标签可以通过提供一个指示向量来最轻松地完成,该指示向量表示每个样本和每个类是否在该类中,因此您会得到一个大小的二进制数组(0 表示不在类中,1 表示在类中) (n_样本,n_类)。
看看 multi-label documentation看看这是否适合您的用例。
关于具有可变数量输出的 Python Scikit 决策树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30336403/