我正在用 R 构建一个机器学习文本分类模型。如果句子属于多个类别,我希望将其分类为多个标签。
例如:“手机屏幕分辨率很棒,电池生命周期也很棒” - 目前我可以将句子分类为电池或手机功能类别,但我希望将其分类为两者。
如果有人可以帮助我提供获得上述结果的想法或方法,那就太好了。
最佳答案
我建议为每个标签训练一个二元分类器。
对于某些算法(例如逻辑回归),您所能做的就是独立训练每个二元分类器。
还有所谓的多标签算法 - 它们同时训练所有二元分类器,并从每个分类器的数据中提取相同的特征。一个例子是最后一层为 sigmoid 的神经网络。请参阅 http://scikit-learn.org/stable/modules/multiclass.html 中的“支持多标签”部分获取多标签算法列表。
当然,多标签算法不一定优于逻辑回归,您必须尝试看看哪种算法最适合您的问题。
关于r - 使用 R 进行机器学习多标签文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48006309/